論文の概要: Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.21584v1
- Date: Wed, 26 Nov 2025 17:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.211885
- Title: Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving
- Title(参考訳): 閉ループエンドツーエンド自動運転のためのモデルに基づくポリシー適応
- Authors: Haohong Lin, Yunzhi Zhang, Wenhao Ding, Jiajun Wu, Ding Zhao,
- Abstract要約: 本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
- 参考スコア(独自算出の注目度): 54.46325690390831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) autonomous driving models have demonstrated strong performance in open-loop evaluations but often suffer from cascading errors and poor generalization in closed-loop settings. To address this gap, we propose Model-based Policy Adaptation (MPA), a general framework that enhances the robustness and safety of pretrained E2E driving agents during deployment. MPA first generates diverse counterfactual trajectories using a geometry-consistent simulation engine, exposing the agent to scenarios beyond the original dataset. Based on this generated data, MPA trains a diffusion-based policy adapter to refine the base policy's predictions and a multi-step Q value model to evaluate long-term outcomes. At inference time, the adapter proposes multiple trajectory candidates, and the Q value model selects the one with the highest expected utility. Experiments on the nuScenes benchmark using a photorealistic closed-loop simulator demonstrate that MPA significantly improves performance across in-domain, out-of-domain, and safety-critical scenarios. We further investigate how the scale of counterfactual data and inference-time guidance strategies affect overall effectiveness.
- Abstract(参考訳): エンド・ツー・エンド(E2E)の自律走行モデルは、オープンループ評価において強力な性能を示してきたが、しばしばカスケードエラーやクローズドループ設定での一般化に悩まされている。
このギャップに対処するため、我々は、事前訓練されたE2E運転エージェントの堅牢性と安全性を高める一般的なフレームワークであるモデルベースポリシー適応(MPA)を提案する。
MPAはまず、ジオメトリ一貫性のあるシミュレーションエンジンを使用して多様な反事実軌道を生成し、エージェントを元のデータセットを超えたシナリオに露呈する。
この生成されたデータに基づいて、MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、長期的成果を評価するための多段階Q値モデルを構築した。
推論時に、アダプタは複数の軌道候補を提案し、Q値モデルは最も期待されているユーティリティを持つものを選択する。
光リアルなクローズドループシミュレータを用いたnuScenesベンチマークの実験では、MPAはドメイン内、ドメイン外、セーフティクリティカルなシナリオでパフォーマンスを大幅に向上することが示された。
さらに,カウンターファクトデータと推論時ガイダンスのスケールが全体的な効果に与える影響について検討する。
関連論文リスト
- Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models [45.523937630646394]
本研究では,モデルベース強化学習における新たなパラダイムであるSFP予測・アズ・プランニング(SFP)を提案する。
SFPは、多様な高時間将来の状態をシミュレートし、「想像に基づく」環境シミュレーションを可能にする新しい世界モデルを構築している。
論文 参考訳(メタデータ) (2025-10-05T03:57:38Z) - Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement [15.002921311530374]
自動回帰モデルは、自動運転におけるエンドツーエンドの計画のための、強烈なベースラインである。
彼らのパフォーマンスは、過去の知覚データに将来の行動を条件にする必要があるため、時間的ミスアライメントによって制約される。
本稿では,初期環境特徴を一貫したエゴ中心のフレームに投影する時間不変アライメント(TISA)モジュールを提案する。
また、DPO(Direct Preference Optimization)を用いた多目的ポストトレーニングのステージを導入し、純粋な模倣を克服する。
論文 参考訳(メタデータ) (2025-09-25T09:24:45Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
マルチエージェントインタラクションをキャプチャする実世界のモーションプランニングベンチマークであるnuPlanを提案する。
我々は、グラフ畳み込みニューラルネットワーク(GCNN)であるBehaviorNetを用いて、このようなユニークな振る舞いをモデル化することを学ぶ。
また、モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverについても紹介する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System [2.0429716172112617]
本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-11T20:09:05Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。