論文の概要: Learning from Demonstrations of Critical Driving Behaviours Using
Driver's Risk Field
- arxiv url: http://arxiv.org/abs/2210.01747v1
- Date: Tue, 4 Oct 2022 17:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 15:10:26.253596
- Title: Learning from Demonstrations of Critical Driving Behaviours Using
Driver's Risk Field
- Title(参考訳): ドライバーのリスクフィールドを用いた臨界運転行動の実証から学ぶ
- Authors: Yurui Du, Flavia Sofia Acerbo, Jens Kober, Tong Duy Son
- Abstract要約: 模倣学習(IL)は、自動運転(AV)計画モジュールのコアとして産業で広く利用されている。
ILプランナに関する以前の研究は、安全クリティカルなシナリオにおけるサンプルの非効率性と低い一般化を示している。
- 参考スコア(独自算出の注目度): 4.272601420525791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, imitation learning (IL) has been widely used in industry as
the core of autonomous vehicle (AV) planning modules. However, previous work on
IL planners shows sample inefficiency and low generalisation in safety-critical
scenarios, on which they are rarely tested. As a result, IL planners can reach
a performance plateau where adding more training data ceases to improve the
learnt policy. First, our work presents an IL model using the spline
coefficient parameterisation and offline expert queries to enhance safety and
training efficiency. Then, we expose the weakness of the learnt IL policy by
synthetically generating critical scenarios through optimisation of parameters
of the driver's risk field (DRF), a parametric human driving behaviour model
implemented in a multi-agent traffic simulator based on the Lyft Prediction
Dataset. To continuously improve the learnt policy, we retrain the IL model
with augmented data. Thanks to the expressivity and interpretability of the
DRF, the desired driving behaviours can be encoded and aggregated to the
original training data. Our work constitutes a full development cycle that can
efficiently and continuously improve the learnt IL policies in closed-loop.
Finally, we show that our IL planner developed with 30 times less training
resource still has superior performance compared to the previous
state-of-the-art.
- Abstract(参考訳): 近年,自律走行車(AV)計画モジュールのコアとして,模倣学習(IL)が産業で広く利用されている。
しかし、ilプランナーに関する以前の研究は、安全-クリティカルシナリオにおけるサンプル非効率と低い一般化を示しており、それらはほとんどテストされない。
その結果、ilプランナーは、学習ポリシーを改善するためにより多くのトレーニングデータを追加するのをやめるパフォーマンスの高原に達することができる。
まず,スプライン係数パラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。
そして、Lyft予測データセットに基づくマルチエージェント交通シミュレータに実装されたパラメトリック人間運転行動モデルであるドライバのリスクフィールド(DRF)のパラメータを最適化することで、臨界シナリオを合成して学習したILポリシーの弱点を明らかにする。
学習方針を継続的に改善するために,ilモデルを拡張データで再トレーニングする。
DRFの表現性と解釈性により、所望の駆動動作を符号化し、元のトレーニングデータに集約することができる。
我々の研究は、クローズドループにおける学習したILポリシーを効率的かつ継続的に改善できる完全な開発サイクルを構成する。
最後に,30分の1のトレーニングリソースで開発したilプランナーは,従来よりも優れた性能を示す。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Symbolic Imitation Learning: From Black-Box to Explainable Driving
Policies [5.977871949434069]
我々は、利用可能なデータセットから透明で説明可能な、一般化可能な駆動ポリシーを学ぶために、シンボリックラーニング(SIL)を導入します。
以上の結果から,SILは運転方針の解釈可能性を高めるだけでなく,運転状況の異なる適用性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-09-27T21:03:45Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning [49.05174527668836]
シミュレーション学習(IL)は、計算コストのかかるモデルベースセンシングと制御アルゴリズムによって提供されるデモから、計算効率のよいセンセータポリシーを生成することができる。
本研究では,ILと出力フィードバック頑健な管モデル予測コントローラを組み合わせることで,実演とデータ拡張戦略を併用し,ニューラルネットワークに基づくセンサモジュレータポリシーを効率的に学習する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2022-10-18T19:59:17Z) - On the Choice of Data for Efficient Training and Validation of
End-to-End Driving Models [32.381828309166195]
エンド・ツー・エンドでトレーニング可能なディープ・ドライビング・モデルのトレーニングと検証に対するデータ設計選択の影響について検討する。
検証設計により、検証中に測定された駆動性能を未知のテスト環境に一般化できることを示す。
論文 参考訳(メタデータ) (2022-06-01T16:25:28Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive
Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。
本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。
提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文 参考訳(メタデータ) (2021-09-17T11:24:10Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。