論文の概要: Latent Chain-of-Thought World Modeling for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2512.10226v1
- Date: Thu, 11 Dec 2025 02:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.167378
- Title: Latent Chain-of-Thought World Modeling for End-to-End Driving
- Title(参考訳): エンド・ツー・エンド駆動のための潜在チェーン・オブ・サート世界モデリング
- Authors: Shuhan Tan, Kashyap Chitta, Yuxiao Chen, Ran Tian, Yurong You, Yan Wang, Wenjie Luo, Yulong Cao, Philipp Krahenbuhl, Marco Pavone, Boris Ivanovic,
- Abstract要約: 潜在言語でCoTを表現するモデルであるLatent-CoT-Drive(LCDrive)を提案する。
当社のアプローチは,CoT推論と意思決定を,アクションアラインな潜在空間で表現することで統合する。
大規模なエンドツーエンド駆動ベンチマークでは、LCDriveはより高速な推論、軌道品質の向上、インタラクティブな強化学習の改善を実現している。
- 参考スコア(独自算出の注目度): 45.726304769312414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language-Action (VLA) models for autonomous driving explore inference-time reasoning as a way to improve driving performance and safety in challenging scenarios. Most prior work uses natural language to express chain-of-thought (CoT) reasoning before producing driving actions. However, text may not be the most efficient representation for reasoning. In this work, we present Latent-CoT-Drive (LCDrive): a model that expresses CoT in a latent language that captures possible outcomes of the driving actions being considered. Our approach unifies CoT reasoning and decision making by representing both in an action-aligned latent space. Instead of natural language, the model reasons by interleaving (1) action-proposal tokens, which use the same vocabulary as the model's output actions; and (2) world model tokens, which are grounded in a learned latent world model and express future outcomes of these actions. We cold start latent CoT by supervising the model's action proposals and world model tokens based on ground-truth future rollouts of the scene. We then post-train with closed-loop reinforcement learning to strengthen reasoning capabilities. On a large-scale end-to-end driving benchmark, LCDrive achieves faster inference, better trajectory quality, and larger improvements from interactive reinforcement learning compared to both non-reasoning and text-reasoning baselines.
- Abstract(参考訳): 自律運転のための最近のビジョン・ランゲージ・アクション(VLA)モデルは、困難なシナリオにおける運転性能と安全性を改善する手段として、推論時推論を探索する。
ほとんどの先行研究では、運転行動を生成する前に自然言語を用いて思考の連鎖(CoT)推論を表現している。
しかし、テキストは推論の最も効率的な表現ではないかもしれない。
本研究では,現在検討中の駆動動作の結果を抽出する潜在言語でCoTを表現するモデルであるLatent-CoT-Drive(LCDrive)を提案する。
当社のアプローチは,CoT推論と意思決定を,アクションアラインな潜在空間で表現することで統合する。
自然言語の代わりに,(1)モデルの出力行動と同一の語彙を使用するアクションプロソザルトークン,(2)学習された潜在世界モデルに根ざした世界モデルトークンと,これらのアクションの今後の成果を表現したアクションプロソザルトークンを介在させることによるモデル推論を行った。
我々は,現場の地味な将来のロールアウトに基づいて,モデルアクションの提案と世界モデルトークンを監督することにより,冷間始動潜伏CoTを冷却する。
そして、推論能力を高めるために、閉ループ強化学習を施した後訓練を行った。
大規模エンド・ツー・エンドの運転ベンチマークでは、LCDriveは推論の高速化、軌道品質の向上、非推論ベースラインとテキスト推論ベースラインの両方と比較してインタラクティブ強化学習による大幅な改善を実現している。
関連論文リスト
- CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving [10.836513600206118]
我々は、視覚言語モデル(VLM)における数値推論と因果推論の両方を強化するために、自律運転のためのチェーン・オブ・ソート(CoT)推論を提案する。
CoT4ADは視覚的な観察と言語命令を統合し、セマンティック推論、シーン理解、軌道計画を実行する。
nuScenesやBench2Driveなど、実世界のベンチマークとシミュレーションベンチマークの両方の実験は、CoT4ADがオープンループとクローズループの両方で最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-11-27T15:13:13Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Doe-1: Closed-Loop Autonomous Driving with Large World Model [63.99937807085461]
統合された認識,予測,計画のための大規模駆動wOrld modEl(Doe-1)を提案する。
我々は自由形式のテキストを認識に使用し、画像トークンを用いてRGB空間内での予測を直接生成する。
計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。