論文の概要: Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving
- arxiv url: http://arxiv.org/abs/2007.00178v1
- Date: Wed, 1 Jul 2020 01:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:51:12.746464
- Title: Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving
- Title(参考訳): 強化学習による近速運転の模倣政策の制御
- Authors: Zhangjie Cao, Erdem B{\i}y{\i}k, Woodrow Z. Wang, Allan Raventos,
Adrien Gaidon, Guy Rosman, Dorsa Sadigh
- Abstract要約: 事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
- 参考スコア(独自算出の注目度): 41.54021613421446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving has achieved significant progress in recent years, but
autonomous cars are still unable to tackle high-risk situations where a
potential accident is likely. In such near-accident scenarios, even a minor
change in the vehicle's actions may result in drastically different
consequences. To avoid unsafe actions in near-accident scenarios, we need to
fully explore the environment. However, reinforcement learning (RL) and
imitation learning (IL), two widely-used policy learning methods, cannot model
rapid phase transitions and are not scalable to fully cover all the states. To
address driving in near-accident scenarios, we propose a hierarchical
reinforcement and imitation learning (H-ReIL) approach that consists of
low-level policies learned by IL for discrete driving modes, and a high-level
policy learned by RL that switches between different driving modes. Our
approach exploits the advantages of both IL and RL by integrating them into a
unified learning framework. Experimental results and user studies suggest our
approach can achieve higher efficiency and safety compared to other methods.
Analyses of the policies demonstrate our high-level policy appropriately
switches between different low-level policies in near-accident driving
situations.
- Abstract(参考訳): 自動運転は近年大きな進歩を遂げているが、自動運転車は事故の可能性の高い高リスクの状況にはまだ対応できない。
このようなほぼ事故のシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
事故に近いシナリオでは、安全でないアクションを避けるために、環境を完全に調査する必要があります。
しかし、広く使われている2つの政策学習手法である強化学習(RL)と模倣学習(IL)は、急激な位相遷移をモデル化できず、全ての状態を完全にカバーできない。
ほぼ事故時の運転に対処するために,ILが個別運転モードで学んだ低レベルポリシーと,異なる運転モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化・模倣学習(H-ReIL)アプローチを提案する。
我々のアプローチは、ILとRLの両方の利点を利用して、それらを統一的な学習フレームワークに統合する。
実験結果とユーザスタディにより,本手法は他の手法と比較して高い効率と安全性が得られた。
政策分析の結果, 運転状況において, 異なる低水準政策を適切に切り替える傾向が示された。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - High-level Decisions from a Safe Maneuver Catalog with Reinforcement
Learning for Safe and Cooperative Automated Merging [5.732271870257913]
統合シナリオにおける安全かつ協調的な自動運転のための効率的なRLに基づく意思決定パイプラインを提案する。
提案するRLエージェントは、車両状態履歴から協調運転者を効率よく識別し、対話的な操作を生成する。
論文 参考訳(メタデータ) (2021-07-15T15:49:53Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Safe Reinforcement Learning for Autonomous Vehicles through Parallel
Constrained Policy Optimization [20.913475536020247]
本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全強化学習アルゴリズムを提案する。
PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してポリシー関数、値関数、新たに追加されたリスク関数を近似する。
安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。
論文 参考訳(メタデータ) (2020-03-03T02:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。