論文の概要: Robust Driving Policy Learning with Guided Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.10160v1
- Date: Wed, 19 Jul 2023 17:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:10:48.171895
- Title: Robust Driving Policy Learning with Guided Meta Reinforcement Learning
- Title(参考訳): ガイド付きメタ強化学習によるロバスト運転政策学習
- Authors: Kanghoon Lee, Jiachen Li, David Isele, Jinkyoo Park, Kikuo Fujimura,
Mykel J. Kochenderfer
- Abstract要約: 本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 49.860391298275616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep reinforcement learning (DRL) has shown promising results for
autonomous navigation in interactive traffic scenarios, existing work typically
adopts a fixed behavior policy to control social vehicles in the training
environment. This may cause the learned driving policy to overfit the
environment, making it difficult to interact well with vehicles with different,
unseen behaviors. In this work, we introduce an efficient method to train
diverse driving policies for social vehicles as a single meta-policy. By
randomizing the interaction-based reward functions of social vehicles, we can
generate diverse objectives and efficiently train the meta-policy through
guiding policies that achieve specific objectives. We further propose a
training strategy to enhance the robustness of the ego vehicle's driving policy
using the environment where social vehicles are controlled by the learned
meta-policy. Our method successfully learns an ego driving policy that
generalizes well to unseen situations with out-of-distribution (OOD) social
agents' behaviors in a challenging uncontrolled T-intersection scenario.
- Abstract(参考訳): ディープ強化学習(DRL)は、対話的な交通シナリオにおける自律ナビゲーションの有望な結果を示しているが、既存の作業は通常、トレーニング環境におけるソーシャルカーを制御する固定的な行動ポリシーを採用する。
これにより、学習された運転方針が環境に過度に適合し、異なる目に見えない行動を持つ車両とうまく相互作用することが困難になる可能性がある。
本研究では,社会自動車の多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
社会的車両の相互作用に基づく報酬関数をランダムにすることで、多様な目標を生成し、特定の目的を達成するポリシーを導くことによって、メタポリシーを効率的に訓練することができる。
さらに,社会車両が学習したメタポリシーによって制御される環境を用いて,ego車両の運転方針の堅牢性を高めるための訓練戦略を提案する。
本手法は,未制御のT-インターセクションシナリオにおいて,アウト・オブ・ディストリビューション (OOD) の社会的エージェントの行動に適応するエゴ駆動政策をうまく学習する。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Exploring the trade off between human driving imitation and safety for
traffic simulation [0.34410212782758043]
運転方針の学習において,人間の運転の模倣と安全維持との間にはトレードオフが存在することを示す。
両目的を協調的に改善する多目的学習アルゴリズム(MOPPO)を提案する。
論文 参考訳(メタデータ) (2022-08-09T14:30:19Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Learning Interaction-aware Guidance Policies for Motion Planning in
Dense Traffic Scenarios [8.484564880157148]
本稿では,高密度交通シナリオにおける対話型モーションプランニングのための新しい枠組みを提案する。
我々は,他車両の協調性に関する国際的ガイダンスを提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。
学習されたポリシーは、ローカル最適化ベースのプランナーを推論し、対話的な振る舞いで誘導し、他の車両が収まらない場合に安全を維持しながら、密集したトラフィックに積極的にマージする。
論文 参考訳(メタデータ) (2021-07-09T16:43:12Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving [41.54021613421446]
事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-01T01:41:45Z) - Intelligent Roundabout Insertion using Deep Reinforcement Learning [68.8204255655161]
本稿では,多忙なラウンドアバウンドの入場を交渉できる演習計画モジュールを提案する。
提案されたモジュールは、トレーニングされたニューラルネットワークに基づいて、操作の全期間にわたって、ラウンドアバウンドに入るタイミングと方法を予測する。
論文 参考訳(メタデータ) (2020-01-03T11:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。