論文の概要: FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model
- arxiv url: http://arxiv.org/abs/2512.11226v1
- Date: Fri, 12 Dec 2025 02:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.628601
- Title: FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model
- Title(参考訳): FutureX: 潜在チェーン・オブ・サートワールドモデルによるエンドツーエンドの自動運転の実現
- Authors: Hongbin Lin, Yiming Yang, Yifan Zhang, Chaoda Zheng, Jie Feng, Sheng Wang, Zhennan Wang, Shijia Chen, Boyang Wang, Yu Zhang, Xianming Liu, Shuguang Cui, Zhen Li,
- Abstract要約: FutureXは、エンド・ツー・エンドのプランナを強化し、将来のシーンの遅延推論と軌道修正を通じて複雑な動作計画を実行するパイプラインである。
FutureXは、より合理的な運動計画と衝突を減らすことで、効率を損なうことなく既存の方法を強化する。
- 参考スコア(独自算出の注目度): 103.2513470454204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In autonomous driving, end-to-end planners learn scene representations from raw sensor data and utilize them to generate a motion plan or control actions. However, exclusive reliance on the current scene for motion planning may result in suboptimal responses in highly dynamic traffic environments where ego actions further alter the future scene. To model the evolution of future scenes, we leverage the World Model to represent how the ego vehicle and its environment interact and change over time, which entails complex reasoning. The Chain of Thought (CoT) offers a promising solution by forecasting a sequence of future thoughts that subsequently guide trajectory refinement. In this paper, we propose FutureX, a CoT-driven pipeline that enhances end-to-end planners to perform complex motion planning via future scene latent reasoning and trajectory refinement. Specifically, the Auto-think Switch examines the current scene and decides whether additional reasoning is required to yield a higher-quality motion plan. Once FutureX enters the Thinking mode, the Latent World Model conducts a CoT-guided rollout to predict future scene representation, enabling the Summarizer Module to further refine the motion plan. Otherwise, FutureX operates in an Instant mode to generate motion plans in a forward pass for relatively simple scenes. Extensive experiments demonstrate that FutureX enhances existing methods by producing more rational motion plans and fewer collisions without compromising efficiency, thereby achieving substantial overall performance gains, e.g., 6.2 PDMS improvement for TransFuser on NAVSIM. Code will be released.
- Abstract(参考訳): 自律運転では、エンド・ツー・エンドのプランナーは生のセンサデータからシーン表現を学び、それらを利用してモーションプランや制御アクションを生成する。
しかし,運動計画における現在のシーンへの排他的依存は,エゴアクションが将来のシーンをさらに変化させるような,非常にダイナミックな交通環境において,最適以下の応答をもたらす可能性がある。
将来のシーンの進化をモデル化するために、私たちは世界モデルを活用して、エゴの車とその環境がどのように相互作用し、時間とともに変化するかを示します。
思考の連鎖(CoT)は、将来の思考の列を予測し、その後軌道の洗練を導く、有望な解決策を提供する。
本稿では,CoT方式のパイプラインであるFutureXを提案する。
具体的には、Auto-think Switchは現在のシーンを調べ、高品質なモーションプランを得るために追加の推論が必要かどうかを判断する。
FutureXがシンキングモードに入ると、レイト・ワールド・モデル(英語版)は将来のシーンの表現を予測するためにCoT誘導のロールアウトを行い、Summarizerモジュールはモーションプランをさらに洗練する。
さもなければ、FutureXはインスタントモードで動作し、比較的単純なシーンのためにフォワードパスでモーションプランを生成する。
大規模な実験により、FutureXはより合理的な動作計画を作成し、効率を損なうことなく衝突を少なくすることで既存の手法を強化し、NAVSIM上でTransFuserの6.2 PDMS改善などの性能向上を実現している。
コードはリリースされる。
関連論文リスト
- Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution [96.25314747309811]
将来的なシーンの進化と軌道計画を共同でモデル化する,新たなエンドツーエンドフレームワークであるSeerDriveを紹介する。
本手法はまず,周辺環境の動態を予測するために,将来の鳥眼ビュー(BEV)の表現を予測する。
2つの重要な要素がこれを可能にする:(1)予測されたBEV機能を軌道プランナーに注入する将来対応計画、(2)反復的なシーンモデリングと車両計画。
論文 参考訳(メタデータ) (2025-10-13T07:41:47Z) - Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement [15.002921311530374]
自動回帰モデルは、自動運転におけるエンドツーエンドの計画のための、強烈なベースラインである。
彼らのパフォーマンスは、過去の知覚データに将来の行動を条件にする必要があるため、時間的ミスアライメントによって制約される。
本稿では,初期環境特徴を一貫したエゴ中心のフレームに投影する時間不変アライメント(TISA)モジュールを提案する。
また、DPO(Direct Preference Optimization)を用いた多目的ポストトレーニングのステージを導入し、純粋な模倣を克服する。
論文 参考訳(メタデータ) (2025-09-25T09:24:45Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。