論文の概要: Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement
- arxiv url: http://arxiv.org/abs/2509.20938v1
- Date: Thu, 25 Sep 2025 09:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.816399
- Title: Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement
- Title(参考訳): 時変空間アライメントと多目的ポリシーリファインメントを用いた自己回帰型エンドツーエンド計画
- Authors: Jianbo Zhao, Taiyu Ban, Xiangjie Li, Xingtai Gui, Hangning Zhou, Lei Liu, Hongwei Zhao, Bin Li,
- Abstract要約: 自動回帰モデルは、自動運転におけるエンドツーエンドの計画のための、強烈なベースラインである。
彼らのパフォーマンスは、過去の知覚データに将来の行動を条件にする必要があるため、時間的ミスアライメントによって制約される。
本稿では,初期環境特徴を一貫したエゴ中心のフレームに投影する時間不変アライメント(TISA)モジュールを提案する。
また、DPO(Direct Preference Optimization)を用いた多目的ポストトレーニングのステージを導入し、純粋な模倣を克服する。
- 参考スコア(独自算出の注目度): 15.002921311530374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inherent sequential modeling capabilities of autoregressive models make them a formidable baseline for end-to-end planning in autonomous driving. Nevertheless, their performance is constrained by a spatio-temporal misalignment, as the planner must condition future actions on past sensory data. This creates an inconsistent worldview, limiting the upper bound of performance for an otherwise powerful approach. To address this, we propose a Time-Invariant Spatial Alignment (TISA) module that learns to project initial environmental features into a consistent ego-centric frame for each future time step, effectively correcting the agent's worldview without explicit future scene prediction. In addition, we employ a kinematic action prediction head (i.e., acceleration and yaw rate) to ensure physically feasible trajectories. Finally, we introduce a multi-objective post-training stage using Direct Preference Optimization (DPO) to move beyond pure imitation. Our approach provides targeted feedback on specific driving behaviors, offering a more fine-grained learning signal than the single, overall objective used in standard DPO. Our model achieves a state-of-the-art 89.8 PDMS on the NAVSIM dataset among autoregressive models. The video document is available at https://tisa-dpo-e2e.github.io/.
- Abstract(参考訳): 自己回帰モデルの本質的なシーケンシャルなモデリング能力は、自律運転におけるエンドツーエンドの計画において、決定的なベースラインとなる。
それにもかかわらず、その性能は時空間的不整合によって制約され、プランナーは過去の感覚データに将来の行動を条件にする必要がある。
これにより、一貫性のない世界観が生まれ、他の強力なアプローチではパフォーマンスの上限が制限される。
そこで本研究では,時間不変空間アライメント(TISA)モジュールを提案する。このモジュールは,初期環境特徴を将来の時間ステップ毎に一貫したエゴ中心のフレームに投影することを学習し,エージェントのワールドビューを,明示的な将来のシーン予測なしで効果的に修正する。
さらに, 運動行動予測ヘッド(加速度, ヨーレート)を用いて, 物理的に実現可能な軌道を確実にする。
最後に,DPO(Direct Preference Optimization)を用いた多目的ポストトレーニングのステージを導入し,純粋な模倣を克服する。
我々のアプローチは特定の運転行動に対する目標フィードバックを提供し、標準DPOで使用される1つの全体目標よりもよりきめ細かな学習信号を提供する。
我々のモデルは,自己回帰モデル間のNAVSIMデータセット上で,最先端の89.8 PDMSを実現する。
ビデオドキュメントはhttps://tisa-dpo-e2e.github.io/で公開されている。
関連論文リスト
- Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Imagine-2-Drive: Leveraging High-Fidelity World Models via Multi-Modal Diffusion Policies [9.639797094021988]
World Model-based Reinforcement Learning (WMRL)は、効率的な政策学習を可能にする。
マルチモーダル拡散型ポリシーアクタと高忠実度世界モデルを統合する新しいWMRLフレームワークであるImagine-2-Driveを提案する。
DiffDreamer内のDPAをトレーニングすることにより,オンラインインタラクションを最小限に抑えた堅牢なポリシー学習を実現する。
論文 参考訳(メタデータ) (2024-11-15T13:17:54Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。