論文の概要: Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.30576v1
- Date: Thu, 28 May 2026 21:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.237052
- Title: Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving
- Title(参考訳): 自律運転における強化学習における不確実性と時間的専門家アドバイザ
- Authors: Ahmed Abouelazm, Felix Klingebiel, Philip Schörner, J. Marius Zöllner,
- Abstract要約: 自律運転のための強化学習の探索は本質的に安全ではない。
本稿では,長期依存を回避しつつ,専門家のアドバイスを駆使して探索をガイドする不確実性認識フレームワークを提案する。
本手法はIQNベースラインを上回り,成功率を5-7%向上し,失敗を低減させる。
- 参考スコア(独自算出の注目度): 9.708935332287265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration in reinforcement learning for autonomous driving is inherently unsafe: agents must experience novel behaviors to learn, yet exploration can lead to collisions or off-road driving. We propose an uncertainty-aware framework that leverages expert advice to guide exploration while avoiding long-term dependence. Advice is triggered when epistemic or aleatoric uncertainty exceeds adaptive thresholds derived from rolling buffers, ensuring advice evolves with the agent's confidence. A commitment-cooldown strategy with a stochastic early-stop heuristic regulates the duration and frequency of guidance, exposing the agent to coherent maneuvers without exhausting the advice budget. Expert and agent experiences are combined in a shared replay buffer within an off-policy implicit quantile network (IQN) backbone, enabling efficient reuse of expert trajectories. Experiments in CARLA show that our method outperforms the IQN baseline, improving success by 5-7% and reducing failures, demonstrating that risk-sensitive uncertainty coupled with regulated expert integration enables safer and more efficient exploration for sensor-based RL policy learning in unsignalized intersection navigation.
- Abstract(参考訳): 自律運転のための強化学習の探索は本質的に安全ではない:エージェントは学習するために新しい振る舞いを経験しなければならないが、探索は衝突やオフロード運転につながる可能性がある。
本稿では,長期依存を回避しつつ,専門家のアドバイスを駆使して探索をガイドする不確実性認識フレームワークを提案する。
エピステミックまたはアレタリック不確実性がローリングバッファから誘導される適応しきい値を超えるとアドバイスがトリガーされ、エージェントの自信でアドバイスが進化する。
確率的アーリーストップヒューリスティックによるコミットメント冷却戦略は、アドバイスの期間と頻度を規制し、アドバイス予算を無駄にすることなく、エージェントを一貫性のある操作に晒す。
専門家とエージェントのエクスペリエンスは、オフポリシックな暗黙的量子化ネットワーク(IQN)バックボーン内の共有リプレイバッファに結合され、専門家の軌道の効率的な再利用を可能にする。
CARLAの実験では,本手法がIQNベースラインを上回り,成功率を5~7%向上し,障害を低減し,規制された専門家統合と結びついたリスク感応性不確実性により,未署名の交差点ナビゲーションにおけるセンサベースのRLポリシー学習のより安全かつ効率的な探索が可能になることを示した。
関連論文リスト
- Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty [32.34854002457735]
本稿では,信頼性を意識した学習,幾何的安全遮蔽,連続ルール認識の埋め込みを組み込んだフレームワークを提案する。
本研究は,直観的不整合に対するトレーニングの堅牢性の向上と衝突回避性の向上,およびベースラインに対するCOLREGのコンプライアンスについて述べる。
論文 参考訳(メタデータ) (2026-05-26T12:59:43Z) - Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints [39.69523326789163]
本稿では、自律走行のための誘導軌道と動的制約強化学習(TraD-RL)法を提案する。
提案手法は,テンペルホフ空港街路回路をモデルとした高忠実度シミュレーション環境において評価される。
実験の結果,TraD-RLは自動走行車のラップ速度と走行安定性の両方を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-03-06T02:51:54Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving [11.62520853262219]
本稿では、自律運転におけるスパースかつ安全クリティカルなリスクに対処するために、臨界対応ロバストRL(CARRL)を導入する。
CARRLは2つの相互作用成分からなる: リスク露光敵 (REA) とリスクターゲット型ロバストエージェント (RTRA) である。
提案手法は,最先端のベースライン法と比較して,全症例で少なくとも22.66%の衝突率を減少させることを示す。
論文 参考訳(メタデータ) (2026-01-05T05:20:16Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。