論文の概要: MindDrive: An All-in-One Framework Bridging World Models and Vision-Language Model for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.04441v2
- Date: Mon, 08 Dec 2025 03:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 15:54:52.354678
- Title: MindDrive: An All-in-One Framework Bridging World Models and Vision-Language Model for End-to-End Autonomous Driving
- Title(参考訳): MindDrive: エンド・ツー・エンドの自律運転のための世界モデルとビジョンランゲージモデルをブリッジするオールインワンフレームワーク
- Authors: Bin Sun, Yaoguang Cao, Yan Wang, Rui Wang, Jiachen Shang, Xiejie Feng, Jiayi Lu, Jia Shi, Shichun Yang, Xiaoyu Yan, Ziying Song,
- Abstract要約: 我々は,高品質な軌道生成と包括的決定推論を統合するフレームワークであるMindDriveを提案する。
特に、提案するFuture-Aware Trajectory Generator (FaTG)は、将来的なシーンを予測するために、エゴ条件の「What-if」シミュレーションを実行する。
これに基づいて、VLM指向評価器(VLoE)は、大規模視覚言語モデルの推論能力を活用し、多目的評価を行う。
- 参考スコア(独自算出の注目度): 13.786046699744476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-End autonomous driving (E2E-AD) has emerged as a new paradigm, where trajectory planning plays a crucial role. Existing studies mainly follow two directions: trajectory generation oriented, which focuses on producing high-quality trajectories with simple decision mechanisms, and trajectory selection oriented, which performs multi-dimensional evaluation to select the best trajectory yet lacks sufficient generative capability. In this work, we propose MindDrive, a harmonized framework that integrates high-quality trajectory generation with comprehensive decision reasoning. It establishes a structured reasoning paradigm of "context simulation - candidate generation - multi-objective trade-off". In particular, the proposed Future-aware Trajectory Generator (FaTG), based on a World Action Model (WaM), performs ego-conditioned "what-if" simulations to predict potential future scenes and generate foresighted trajectory candidates. Building upon this, the VLM-oriented Evaluator (VLoE) leverages the reasoning capability of a large vision-language model to conduct multi-objective evaluations across safety, comfort, and efficiency dimensions, leading to reasoned and human-aligned decision making. Extensive experiments on the NAVSIM-v1 and NAVSIM-v2 benchmarks demonstrate that MindDrive achieves state-of-the-art performance across multi-dimensional driving metrics, significantly enhancing safety, compliance, and generalization. This work provides a promising path toward interpretable and cognitively guided autonomous driving.
- Abstract(参考訳): E2E-AD(End-to-End autonomous driving)は、軌道計画が重要な役割を果たす新しいパラダイムとして登場した。
既存の研究は主に2つの方向に従っている: 軌道生成指向(トラジェクトリ生成指向)は、単純な決定機構を持つ高品質な軌道を生成することに焦点を当て、軌道選択指向(トラジェクトリ選択指向)は、最良の軌道を選択するために多次元評価を行うが、十分な生成能力を欠いている。
本研究では,高品質な軌道生成と包括的意思決定推論を統合した調和型フレームワークであるMindDriveを提案する。
コンテキストシミュレーション - 候補生成 - 多目的トレードオフ(multi-jective trade-off)" という構造的推論パラダイムを確立する。
特に、World Action Model (WaM) に基づくFuture-Aware Trajectory Generator (FaTG) は、将来のシーンを予測し、予測された軌道候補を生成するために、エゴ条件の「What-if」シミュレーションを実行する。
これに基づいて、VLM指向評価器(VLoE)は、大きな視覚言語モデルの推論能力を活用して、安全性、快適性、効率性を越えて多目的評価を行い、推論と人間による意思決定をもたらす。
NAVSIM-v1とNAVSIM-v2ベンチマークの大規模な実験により、MindDriveは多次元駆動メトリクスの最先端性能を達成し、安全性、コンプライアンス、一般化を著しく向上することが示された。
この研究は、解釈可能で認知的に導かれる自動運転への有望な道を提供する。
関連論文リスト
- Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving [7.921556303360947]
我々は,一段階のエンドツーエンド自動運転のための新しいフレームワークであるMax-V1を紹介する。
我々のフレームワークは、運転の本質的にの順序性と整合した単一パス生成パラダイムを提供する。
実験により,本手法はnuScenesデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-29T05:14:18Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - TAE: A Semi-supervised Controllable Behavior-aware Trajectory Generator
and Predictor [3.6955256596550137]
軌道生成と予測は、知的車両のプランナー評価と意思決定において重要な役割を果たす。
本稿では,ドライバの動作を明示的にモデル化する行動認識型トラジェクトリ・オートエンコーダ(TAE)を提案する。
我々のモデルは、統一アーキテクチャにおける軌道生成と予測に対処し、両方のタスクに利益をもたらす。
論文 参考訳(メタデータ) (2022-03-02T17:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。