論文の概要: Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios
- arxiv url: http://arxiv.org/abs/2212.11419v1
- Date: Wed, 21 Dec 2022 23:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:12:29.042402
- Title: Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios
- Title(参考訳): 模倣だけでは不十分:強化学習による模倣の堅牢化
- Authors: Yiren Lu, Justin Fu, George Tucker, Xinlei Pan, Eli Bronstein, Becca
Roelofs, Benjamin Sapp, Brandyn White, Aleksandra Faust, Shimon Whiteson,
Dragomir Anguelov, Sergey Levine
- Abstract要約: シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
これは、自動運転における模倣と強化学習の併用の最初の応用である。
- 参考スコア(独自算出の注目度): 145.68441486796718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) is a simple and powerful way to use high-quality
human driving data, which can be collected at scale, to identify driving
preferences and produce human-like behavior. However, policies based on
imitation learning alone often fail to sufficiently account for safety and
reliability concerns. In this paper, we show how imitation learning combined
with reinforcement learning using simple rewards can substantially improve the
safety and reliability of driving policies over those learned from imitation
alone. In particular, we use a combination of imitation and reinforcement
learning to train a policy on over 100k miles of urban driving data, and
measure its effectiveness in test scenarios grouped by different levels of
collision risk. To our knowledge, this is the first application of a combined
imitation and reinforcement learning approach in autonomous driving that
utilizes large amounts of real-world human driving data.
- Abstract(参考訳): 模倣学習(il)は、人間の運転データを大規模に収集し、運転の好みを特定し、人間のような行動を生み出すための、シンプルで強力な方法である。
しかし、模倣学習のみに基づく政策は、安全性と信頼性の懸念を十分に考慮できないことが多い。
本稿では,単純な報酬を用いた強化学習と組み合わさった模倣学習が,模倣だけで学んだものよりも運転方針の安全性と信頼性を大幅に向上させることを示す。
特に,シミュレーションと強化学習を組み合わせることで,1万マイル以上の都市走行データのポリシをトレーニングし,衝突リスクの異なるレベルに分類されたテストシナリオにおける有効性を測定した。
我々の知る限り、これは大量の現実世界の人間の運転データを利用する自動運転における模倣と強化学習の併用の最初の応用である。
関連論文リスト
- Scaling Is All You Need: Autonomous Driving with JAX-Accelerated
Reinforcement Learning [9.92963228768333]
強化学習は、ビデオゲームのような複雑な領域で最高の人間よりも優れていることが実証されている。
自律運転のための大規模強化学習実験を行っている。
我々の最高の実行方針は、最先端の機械学習による自律運転のポリシーと比較して、運転進捗率を25%向上させながら、失敗率を64%削減します。
論文 参考訳(メタデータ) (2023-12-23T00:07:06Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Exploring the trade off between human driving imitation and safety for
traffic simulation [0.34410212782758043]
運転方針の学習において,人間の運転の模倣と安全維持との間にはトレードオフが存在することを示す。
両目的を協調的に改善する多目的学習アルゴリズム(MOPPO)を提案する。
論文 参考訳(メタデータ) (2022-08-09T14:30:19Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning by Watching [7.785051236155595]
観察による学習(LbW)は、国家や専門家の行動の知識を必要とせず、運転方針を学習することができる。
LbWは、エゴ車両の観察を視界に変換することで、あるシーンにおける他の車両のデモンストレーションを利用する。
我々のLbWエージェントは、データ効率のよい学習を可能にしながら、より堅牢な運転ポリシーを学びます。
論文 参考訳(メタデータ) (2021-06-10T17:58:34Z) - Improving Robustness of Learning-based Autonomous Steering Using
Adversarial Images [58.287120077778205]
自動運転用画像入力における学習アルゴリズムw.r.tの堅牢性を解析するためのフレームワークについて紹介する。
感度分析の結果を用いて, 「操縦への学習」 タスクの総合的性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-26T02:08:07Z) - Action-Based Representation Learning for Autonomous Driving [8.296684637620551]
本稿では,行動に基づく運転データを学習表現に用いることを提案する。
提案手法を用いて事前学習した空き時間に基づく運転モデルでは,比較的少量の弱注釈画像が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-21T10:49:13Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。