論文の概要: Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios
- arxiv url: http://arxiv.org/abs/2212.11419v2
- Date: Thu, 10 Aug 2023 19:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:31:19.211874
- Title: Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios
- Title(参考訳): 模倣だけでは不十分:強化学習による模倣の堅牢化
- Authors: Yiren Lu, Justin Fu, George Tucker, Xinlei Pan, Eli Bronstein, Rebecca
Roelofs, Benjamin Sapp, Brandyn White, Aleksandra Faust, Shimon Whiteson,
Dragomir Anguelov, Sergey Levine
- Abstract要約: シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
- 参考スコア(独自算出の注目度): 147.16925581385576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) is a simple and powerful way to use high-quality
human driving data, which can be collected at scale, to produce human-like
behavior. However, policies based on imitation learning alone often fail to
sufficiently account for safety and reliability concerns. In this paper, we
show how imitation learning combined with reinforcement learning using simple
rewards can substantially improve the safety and reliability of driving
policies over those learned from imitation alone. In particular, we train a
policy on over 100k miles of urban driving data, and measure its effectiveness
in test scenarios grouped by different levels of collision likelihood. Our
analysis shows that while imitation can perform well in low-difficulty
scenarios that are well-covered by the demonstration data, our proposed
approach significantly improves robustness on the most challenging scenarios
(over 38% reduction in failures). To our knowledge, this is the first
application of a combined imitation and reinforcement learning approach in
autonomous driving that utilizes large amounts of real-world human driving
data.
- Abstract(参考訳): 模倣学習(il)は、人間の運転データを大規模に収集し、人間のような行動を生み出すための、シンプルで強力な方法である。
しかし、模倣学習のみに基づく政策は、安全性と信頼性の懸念を十分に考慮できないことが多い。
本稿では,単純な報酬を用いた強化学習と組み合わさった模倣学習が,模倣だけで学んだものよりも運転方針の安全性と信頼性を大幅に向上させることを示す。
特に,1万マイル以上の都市走行データに関するポリシーをトレーニングし,衝突可能性の異なるレベルに分類されたテストシナリオでの有効性を測定した。
提案手法は, 実験データから得られた低拡散性シナリオにおいて, 再現性は良好に機能するが, 提案手法は最も困難なシナリオの堅牢性(障害の38%以上)を著しく向上させる。
我々の知る限り、これは大量の現実世界の人間の運転データを利用する自動運転における模倣と強化学習の併用の最初の応用である。
関連論文リスト
- IGDrivSim: A Benchmark for the Imitation Gap in Autonomous Driving [35.64960921334498]
textbfIGDrivSimはWaymaxシミュレータ上に構築されたベンチマークである。
実験の結果,この認識ギャップは安全かつ効果的な運転行動の学習を妨げることが示された。
本研究は,模倣と強化学習を組み合わせることで,禁止行為に対する簡単な報奨を生かし,これらの失敗を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-11-07T12:28:52Z) - CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Action-Based Representation Learning for Autonomous Driving [8.296684637620551]
本稿では,行動に基づく運転データを学習表現に用いることを提案する。
提案手法を用いて事前学習した空き時間に基づく運転モデルでは,比較的少量の弱注釈画像が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-21T10:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。