論文の概要: TakeAD: Preference-based Post-optimization for End-to-end Autonomous Driving with Expert Takeover Data
- arxiv url: http://arxiv.org/abs/2512.17370v1
- Date: Fri, 19 Dec 2025 09:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.317996
- Title: TakeAD: Preference-based Post-optimization for End-to-end Autonomous Driving with Expert Takeover Data
- Title(参考訳): TakeAD: 専門家のテイクオーバデータによるエンドツーエンド自動運転の優先度に基づく後最適化
- Authors: Deqing Liu, Yinfeng Gao, Deheng Qian, Qichao Zhang, Xiaoqing Ye, Junyu Han, Yupeng Zheng, Xueyi Liu, Zhongpu Xia, Dawei Ding, Yifeng Pan, Dongbin Zhao,
- Abstract要約: 既存のエンドツーエンド自動運転手法は、通常模倣学習(IL)に依存している。
このミスアライメントは、クローズドループ実行中に運転開始時の乗っ取りとシステム停止をトリガーすることが多い。
本研究では,このデエンゲージメントデータを用いて,事前学習したILポリシーを微調整する,好みに基づくポスト最適化フレームワークであるTakeADを提案する。
- 参考スコア(独自算出の注目度): 40.3157492247442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing end-to-end autonomous driving methods typically rely on imitation learning (IL) but face a key challenge: the misalignment between open-loop training and closed-loop deployment. This misalignment often triggers driver-initiated takeovers and system disengagements during closed-loop execution. How to leverage those expert takeover data from disengagement scenarios and effectively expand the IL policy's capability presents a valuable yet unexplored challenge. In this paper, we propose TakeAD, a novel preference-based post-optimization framework that fine-tunes the pre-trained IL policy with this disengagement data to enhance the closed-loop driving performance. First, we design an efficient expert takeover data collection pipeline inspired by human takeover mechanisms in real-world autonomous driving systems. Then, this post optimization framework integrates iterative Dataset Aggregation (DAgger) for imitation learning with Direct Preference Optimization (DPO) for preference alignment. The DAgger stage equips the policy with fundamental capabilities to handle disengagement states through direct imitation of expert interventions. Subsequently, the DPO stage refines the policy's behavior to better align with expert preferences in disengagement scenarios. Through multiple iterations, the policy progressively learns recovery strategies for disengagement states, thereby mitigating the open-loop gap. Experiments on the closed-loop Bench2Drive benchmark demonstrate our method's effectiveness compared with pure IL methods, with comprehensive ablations confirming the contribution of each component.
- Abstract(参考訳): 既存のエンドツーエンドの自動運転手法は通常、模倣学習(IL)に依存しているが、重要な課題に直面している。
このミスアライメントは、クローズドループ実行中に運転開始時の乗っ取りとシステム停止をトリガーすることが多い。
離脱シナリオからこれらの専門家の乗っ取りデータを活用し、ILポリシーの能力を効果的に拡張する方法は、価値はあるが未調査の課題である。
本稿では,このデエンジメントデータを用いて事前学習したILポリシーを微調整し,クローズドループ駆動性能を向上する,新しい嗜好ベースのポスト最適化フレームワークであるTakeADを提案する。
まず、現実の自動運転システムにおける人間の乗っ取り機構にインスパイアされた、効率的な専門家の乗っ取りデータ収集パイプラインを設計する。
次に、このポスト最適化フレームワークは、模倣学習のための反復データセット集約(DAgger)と、嗜好調整のための直接優先度最適化(DPO)を統合する。
DAggerの段階は、専門家の介入の直接の模倣を通じて、解禁状態を処理する基本的な能力を持つ。
その後、DPOステージはポリシーの振る舞いを洗練させ、離脱シナリオにおける専門家の好みに適合させる。
複数の繰り返しを通じて、ポリシーは解離状態の回復戦略を徐々に学習し、開ループギャップを緩和する。
クローズドループBench2Driveベンチマークの実験では、各コンポーネントの寄与を包括的に確認しながら、純粋なILメソッドと比較して、我々の方法の有効性を実証している。
関連論文リスト
- RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies [30.632104005565832]
ロールアウト・アズ・デモレーション(RoaD)は、クローズドループにおける自律運転ポリシーのトレーニングにおいて、共変量シフトを軽減する方法である。
ロールアウト生成の間、RoaDは高品質な振る舞いに対するバイアス軌道に関する専門家のガイダンスを取り入れ、微調整のための情報的かつ現実的なデモンストレーションを生み出した。
本稿では,大規模な交通シミュレーションベンチマークであるWOSACにおけるRoaDの有効性を示す。
論文 参考訳(メタデータ) (2025-12-01T18:52:03Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only [70.43369087819332]
Supervised Fine-tuning (SFT) は、大規模な言語モデルと人間のアノテーションによる実演を整合させる重要な方法として登場した。
本稿では, 自己回帰型PPOを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:02:13Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving [31.336758241051374]
DriveDPOは、安全指向最適化政策学習フレームワークである。
我々は、直接政策最適化のために、人間の模倣類似性とルールに基づく安全スコアから統一されたポリシー分布を蒸留する。
NAVSIMベンチマークの実験では、DriveDPOは90.0の最先端PDMSを達成した。
論文 参考訳(メタデータ) (2025-09-22T16:01:11Z) - SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。
SGPO(Self-Generated Preference Optimization)を提案する。
改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。
AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-27T08:55:40Z) - Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。