Fugu-MT 論文翻訳(概要): Learning from Demonstrations of Critical Driving Behaviours Using Driver's Risk Field

論文の概要: Learning from Demonstrations of Critical Driving Behaviours Using Driver's Risk Field

arxiv url: http://arxiv.org/abs/2210.01747v1
Date: Tue, 4 Oct 2022 17:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 15:10:26.253596
Title: Learning from Demonstrations of Critical Driving Behaviours Using Driver's Risk Field
Title（参考訳）: ドライバーのリスクフィールドを用いた臨界運転行動の実証から学ぶ
Authors: Yurui Du, Flavia Sofia Acerbo, Jens Kober, Tong Duy Son
Abstract要約: 模倣学習(IL)は、自動運転(AV)計画モジュールのコアとして産業で広く利用されている。 ILプランナに関する以前の研究は、安全クリティカルなシナリオにおけるサンプルの非効率性と低い一般化を示している。
参考スコア（独自算出の注目度）: 4.272601420525791
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, imitation learning (IL) has been widely used in industry as the core of autonomous vehicle (AV) planning modules. However, previous work on IL planners shows sample inefficiency and low generalisation in safety-critical scenarios, on which they are rarely tested. As a result, IL planners can reach a performance plateau where adding more training data ceases to improve the learnt policy. First, our work presents an IL model using the spline coefficient parameterisation and offline expert queries to enhance safety and training efficiency. Then, we expose the weakness of the learnt IL policy by synthetically generating critical scenarios through optimisation of parameters of the driver's risk field (DRF), a parametric human driving behaviour model implemented in a multi-agent traffic simulator based on the Lyft Prediction Dataset. To continuously improve the learnt policy, we retrain the IL model with augmented data. Thanks to the expressivity and interpretability of the DRF, the desired driving behaviours can be encoded and aggregated to the original training data. Our work constitutes a full development cycle that can efficiently and continuously improve the learnt IL policies in closed-loop. Finally, we show that our IL planner developed with 30 times less training resource still has superior performance compared to the previous state-of-the-art.
Abstract（参考訳）: 近年,自律走行車(AV)計画モジュールのコアとして,模倣学習(IL)が産業で広く利用されている。しかし、ilプランナーに関する以前の研究は、安全-クリティカルシナリオにおけるサンプル非効率と低い一般化を示しており、それらはほとんどテストされない。その結果、ilプランナーは、学習ポリシーを改善するためにより多くのトレーニングデータを追加するのをやめるパフォーマンスの高原に達することができる。まず,スプライン係数パラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。そして、Lyft予測データセットに基づくマルチエージェント交通シミュレータに実装されたパラメトリック人間運転行動モデルであるドライバのリスクフィールド(DRF)のパラメータを最適化することで、臨界シナリオを合成して学習したILポリシーの弱点を明らかにする。学習方針を継続的に改善するために,ilモデルを拡張データで再トレーニングする。 DRFの表現性と解釈性により、所望の駆動動作を符号化し、元のトレーニングデータに集約することができる。我々の研究は、クローズドループにおける学習したILポリシーを効率的かつ継続的に改善できる完全な開発サイクルを構成する。最後に,30分の1のトレーニングリソースで開発したilプランナーは,従来よりも優れた性能を示す。

関連論文リスト

ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning [32.8666744273094]
textbfOnline textbfRollout textbfAdaptation, textbfADORA (textbfAdvantage textbfDynamics via textbfOnline textbfRollout textbfAdaptation)を導入する。
論文参考訳（メタデータ） (2026-02-10T17:40:39Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning [11.602831593017427]
本稿では、強化学習(RL)を用いたエンドツーエンド自動運転エージェントの訓練の課題について述べる。 RLエージェントは通常、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練される。本稿では,エージェントの進化能力に基づいて,適応性のある複雑な運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-13T06:26:57Z)
Learning to Drive by Imitating Surrounding Vehicles [0.6612847014373572]
模倣学習は、複雑な交通環境をナビゲートするために自動運転車を訓練するための有望なアプローチである。本研究では, 周辺車両の観測軌道を利用することで, 模倣学習の促進を図るデータ強化戦略を提案する。我々は、nuPlanデータセット上で、最先端の学習ベースプランニング手法PLUTOを用いて、我々のアプローチを評価し、この拡張手法が複雑な運転シナリオの性能向上につながることを実証した。
論文参考訳（メタデータ） (2025-03-08T00:40:47Z)
Amortized Safe Active Learning for Real-Time Decision-Making: Pretrained Neural Policies from Simulated Nonparametric Functions [23.406516455945653]
アクティブラーニング(英: Active Learning, AL)は、モデルトレーニングにおいて最も情報性の高いデータを選択することを目的とした、シーケンシャルな学習手法である。 ALの主な課題は、繰り返しモデルトレーニングとデータ選択に必要な取得最適化である。トレーニング済みのニューラルネットワークポリシを活用することで,モデルの繰り返しトレーニングや取得最適化の必要性を解消する。
論文参考訳（メタデータ） (2025-01-26T09:05:52Z)
From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
Good Data Is All Imitation Learning Needs [13.26174103650211]
本稿では,エンド・ツー・エンド自動運転システムのための新しいデータ拡張手法として,CFE(Counterfactual Explanations)を導入する。 CFEは、意思決定境界付近でトレーニングサンプルを生成することによって、専門家のドライバ戦略をより包括的な表現に導く。 CARLAシミュレータによる実験により,CF-Driverは現在の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-09-26T07:43:12Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Symbolic Imitation Learning: From Black-Box to Explainable Driving Policies [5.977871949434069]
我々は、利用可能なデータセットから透明で説明可能な、一般化可能な駆動ポリシーを学ぶために、シンボリックラーニング(SIL)を導入します。以上の結果から,SILは運転方針の解釈可能性を高めるだけでなく,運転状況の異なる適用性を向上させることが示唆された。
論文参考訳（メタデータ） (2023-09-27T21:03:45Z)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳（メタデータ） (2023-09-13T17:55:11Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
On the Choice of Data for Efficient Training and Validation of End-to-End Driving Models [32.381828309166195]
エンド・ツー・エンドでトレーニング可能なディープ・ドライビング・モデルのトレーニングと検証に対するデータ設計選択の影響について検討する。検証設計により、検証中に測定された駆動性能を未知のテスト環境に一般化できることを示す。
論文参考訳（メタデータ） (2022-06-01T16:25:28Z)
Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文参考訳（メタデータ） (2021-11-23T20:14:02Z)
UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文参考訳（メタデータ） (2021-11-22T10:37:52Z)
Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文参考訳（メタデータ） (2021-09-17T11:24:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。