論文の概要: Learning from Demonstrations of Critical Driving Behaviours Using
Driver's Risk Field
- arxiv url: http://arxiv.org/abs/2210.01747v2
- Date: Sat, 1 Apr 2023 01:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:37:07.088377
- Title: Learning from Demonstrations of Critical Driving Behaviours Using
Driver's Risk Field
- Title(参考訳): ドライバーのリスクフィールドを用いた臨界運転行動の実証から学ぶ
- Authors: Yurui Du, Flavia Sofia Acerbo, Jens Kober, Tong Duy Son
- Abstract要約: 模倣学習(IL)は、自動運転(AV)計画モジュールのコアとして産業で広く利用されている。
これまでのIL研究は、安全クリティカルなシナリオにおけるサンプルの非効率性と低い一般化を示しており、テストされることはめったにない。
本稿では,スプライン係数のパラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。
- 参考スコア(独自算出の注目度): 4.272601420525791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, imitation learning (IL) has been widely used in industry as
the core of autonomous vehicle (AV) planning modules. However, previous IL
works show sample inefficiency and low generalisation in safety-critical
scenarios, on which they are rarely tested. As a result, IL planners can reach
a performance plateau where adding more training data ceases to improve the
learnt policy. First, our work presents an IL model using the spline
coefficient parameterisation and offline expert queries to enhance safety and
training efficiency. Then, we expose the weakness of the learnt IL policy by
synthetically generating critical scenarios through optimisation of parameters
of the driver's risk field (DRF), a parametric human driving behaviour model
implemented in a multi-agent traffic simulator based on the Lyft Prediction
Dataset. To continuously improve the learnt policy, we retrain the IL model
with augmented data. Thanks to the expressivity and interpretability of the
DRF, the desired driving behaviours can be encoded and aggregated to the
original training data. Our work constitutes a full development cycle that can
efficiently and continuously improve the learnt IL policies in closed-loop.
Finally, we show that our IL planner developed with less training resource
still has superior performance compared to the previous state-of-the-art.
- Abstract(参考訳): 近年,自律走行車(AV)計画モジュールのコアとして,模倣学習(IL)が産業で広く利用されている。
しかし、以前のilの作業は、安全クリティカルなシナリオにおいて、サンプル非効率と低い一般化を示しており、それらはほとんどテストされない。
その結果、ilプランナーは、学習ポリシーを改善するためにより多くのトレーニングデータを追加するのをやめるパフォーマンスの高原に達することができる。
まず,スプライン係数パラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。
そして、Lyft予測データセットに基づくマルチエージェント交通シミュレータに実装されたパラメトリック人間運転行動モデルであるドライバのリスクフィールド(DRF)のパラメータを最適化することで、臨界シナリオを合成して学習したILポリシーの弱点を明らかにする。
学習方針を継続的に改善するために,ilモデルを拡張データで再トレーニングする。
DRFの表現性と解釈性により、所望の駆動動作を符号化し、元のトレーニングデータに集約することができる。
我々の研究は、クローズドループにおける学習したILポリシーを効率的かつ継続的に改善できる完全な開発サイクルを構成する。
最後に, トレーニングリソースの少ないILプランナの開発は, 従来よりも優れた性能を示した。
関連論文リスト
- Good Data Is All Imitation Learning Needs [13.26174103650211]
本稿では,エンド・ツー・エンド自動運転システムのための新しいデータ拡張手法として,CFE(Counterfactual Explanations)を導入する。
CFEは、意思決定境界付近でトレーニングサンプルを生成することによって、専門家のドライバ戦略をより包括的な表現に導く。
CARLAシミュレータによる実験により,CF-Driverは現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-26T07:43:12Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Symbolic Imitation Learning: From Black-Box to Explainable Driving
Policies [5.977871949434069]
我々は、利用可能なデータセットから透明で説明可能な、一般化可能な駆動ポリシーを学ぶために、シンボリックラーニング(SIL)を導入します。
以上の結果から,SILは運転方針の解釈可能性を高めるだけでなく,運転状況の異なる適用性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-09-27T21:03:45Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On the Choice of Data for Efficient Training and Validation of
End-to-End Driving Models [32.381828309166195]
エンド・ツー・エンドでトレーニング可能なディープ・ドライビング・モデルのトレーニングと検証に対するデータ設計選択の影響について検討する。
検証設計により、検証中に測定された駆動性能を未知のテスト環境に一般化できることを示す。
論文 参考訳(メタデータ) (2022-06-01T16:25:28Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive
Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。
本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。
提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文 参考訳(メタデータ) (2021-09-17T11:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。