論文の概要: Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.06737v1
- Date: Sat, 10 May 2025 19:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.014124
- Title: Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving
- Title(参考訳): 進歩と安全のバランス: 自動運転におけるRLの新たなリスク意識
- Authors: Ahmed Abouelazm, Jonas Michel, Helen Gremmelmaier, Tim Joseph, Philip Schörner, J. Marius Zöllner,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、堅牢な意思決定能力によって自律運転を実現するための有望なアプローチである。
本稿では,2次元楕円形関数に基づく各種駆動相互作用に対するリスク認識手法を提案する。
交通密度の異なる無署名の交差点シナリオにおいて,提案した報奨の有効性を評価する。
- 参考スコア(独自算出の注目度): 10.950036191948605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is a promising approach for achieving autonomous driving due to robust decision-making capabilities. RL learns a driving policy through trial and error in traffic scenarios, guided by a reward function that combines the driving objectives. The design of such reward function has received insufficient attention, yielding ill-defined rewards with various pitfalls. Safety, in particular, has long been regarded only as a penalty for collisions. This leaves the risks associated with actions leading up to a collision unaddressed, limiting the applicability of RL in real-world scenarios. To address these shortcomings, our work focuses on enhancing the reward formulation by defining a set of driving objectives and structuring them hierarchically. Furthermore, we discuss the formulation of these objectives in a normalized manner to transparently determine their contribution to the overall reward. Additionally, we introduce a novel risk-aware objective for various driving interactions based on a two-dimensional ellipsoid function and an extension of Responsibility-Sensitive Safety (RSS) concepts. We evaluate the efficacy of our proposed reward in unsignalized intersection scenarios with varying traffic densities. The approach decreases collision rates by 21\% on average compared to baseline rewards and consistently surpasses them in route progress and cumulative reward, demonstrating its capability to promote safer driving behaviors while maintaining high-performance levels.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、堅牢な意思決定能力によって自律運転を実現するための有望なアプローチである。
RLは、交通シナリオにおける試行錯誤を通じて、運転目標を組み合わせた報酬関数によって導かれる運転ポリシーを学習する。
このような報酬関数の設計には十分な注意が払われておらず、様々な落とし穴がある。
特に安全は、長い間衝突に対する罰としてのみ見なされてきた。
これにより、衝突に繋がるリスクは解消され、現実のシナリオにおけるRLの適用性が制限される。
これらの欠点に対処するために、我々の研究は、一連の駆動目標を定義し、階層的にそれらを構築することで報酬の定式化を強化することに焦点を当てている。
さらに、これらの目的の定式化を正規化して、全体報酬への貢献を透過的に決定する方法について論じる。
さらに,2次元楕円関数とレスポンシビリティ・センシティブ・セーフティ(RSS)概念の拡張に基づく,様々な運転行為に対する新たなリスク認識目標を提案する。
交通密度の異なる無署名の交差点シナリオにおいて,提案した報奨の有効性を評価する。
この手法は、ベースラインの報酬と比べて平均で21倍の衝突率を減少させ、ルートの進行と累積的な報酬でそれらを一貫して上回り、ハイパフォーマンスな水準を維持しながら安全な運転行動を促進する能力を示す。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Risk-Aware Reward Shaping of Reinforcement Learning Agents for
Autonomous Driving [6.613838702441967]
本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。
我々は、危険運転行動の探索と罰則を奨励する追加のリフォーム報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-05T20:10:36Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic
Junction Driving [20.85562165500152]
道路交通ジャンクションのシナリオでは、車両は通常、輸送環境から部分的な観察を受ける。
本研究では,3つのベースラインDRLモデル(DQN,A2C,PPO)の安全性評価を行った。
提案した自己認識注意-DQNは,交差点およびラウンドアバウンドシナリオにおける安全性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-01-20T11:21:33Z) - Risk-Constrained Interactive Safety under Behavior Uncertainty for
Autonomous Driving [0.0]
許可された計画領域を制限する安全封筒は、行動の不確実性の存在下で解釈可能な安全性をもたらす。
人間は、安全封筒に違反する確率的リスクを受け入れることによって、密集した交通における安全と効率のバランスをとる。
論文 参考訳(メタデータ) (2021-02-05T08:33:39Z) - Risk-Aware High-level Decisions for Automated Driving at Occluded
Intersections with Reinforcement Learning [16.69903761648675]
信号のない交差点を走行するための高レベル動作を学習するための一般的なリスク認識型DQNアプローチを提案する。
提案された状態表現は、マルチレーンシナリオで使用できるレーンベースの情報を提供する。
また,衝突事故だけでなく,危険事態を罰するリスクベース報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-09T09:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。