論文の概要: MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.21952v1
- Date: Wed, 25 Feb 2026 14:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.864452
- Title: MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving
- Title(参考訳): MindDriver: 自律運転のためのプログレッシブマルチモーダル推論の導入
- Authors: Lingjun Zhang, Yujian Yuan, Changjie Wu, Xinyuan Chang, Xin Cai, Shuang Zeng, Linzhe Shi, Sijin Wang, Hang Zhang, Mu Xu,
- Abstract要約: Vision-Language Modelsの広く使われている推論戦略としてのChain-of-Thought(CoT)は、重大な課題に直面している。
我々は,VLMが自律運転のための人間ライクな進歩的思考を模倣できる,プログレッシブなマルチモーダル推論フレームワークであるMindDriverを提案する。
MindDriverはセマンティック理解、セマンティック・ツー・物理空間の想像力、および物理空間の軌道計画を提示している。
- 参考スコア(独自算出の注目度): 11.484081188893526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLM) exhibit strong reasoning capabilities, showing promise for end-to-end autonomous driving systems. Chain-of-Thought (CoT), as VLM's widely used reasoning strategy, is facing critical challenges. Existing textual CoT has a large gap between text semantic space and trajectory physical space. Although the recent approach utilizes future image to replace text as CoT process, it lacks clear planning-oriented objective guidance to generate images with accurate scene evolution. To address these, we innovatively propose MindDriver, a progressive multimodal reasoning framework that enables VLM to imitate human-like progressive thinking for autonomous driving. MindDriver presents semantic understanding, semantic-to-physical space imagination, and physical-space trajectory planning. To achieve aligned reasoning processes in MindDriver, we develop a feedback-guided automatic data annotation pipeline to generate aligned multimodal reasoning training data. Furthermore, we develop a progressive reinforcement fine-tuning method to optimize the alignment through progressive high- level reward-based learning. MindDriver demonstrates superior performance in both nuScences open-loop and Bench2Drive closed-loop evaluation. Codes are available at https://github.com/hotdogcheesewhite/MindDriver.
- Abstract(参考訳): VLM(Vision-Language Models)は強力な推論能力を示し、エンドツーエンドの自動運転システムの実現を約束する。
VLMの広く使われている推論戦略であるChain-of-Thought(CoT)は、重要な課題に直面している。
既存のテキストCoTは、テキスト意味空間と軌道物理空間の間に大きなギャップがある。
近年のアプローチでは、テキストをCoTプロセスとして置き換えるために将来の画像を利用するが、正確なシーン進化を伴う画像を生成するための明確な計画指向の客観的ガイダンスは欠如している。
これらの課題に対処するために,我々は,VLMが自律運転のための人間のような進歩的思考を模倣することを可能にする,プログレッシブマルチモーダル推論フレームワークであるMindDriverを革新的に提案する。
MindDriverはセマンティック理解、セマンティック・ツー・物理空間の想像力、および物理空間の軌道計画を提示している。
そこで我々は,MindDriverにおけるアライメント推論プロセスを実現するために,アライメント型マルチモーダル推論トレーニングデータを生成するフィードバック誘導型自動データアノテーションパイプラインを開発した。
さらに,プログレッシブ・ハイレベル報酬に基づく学習を通じてアライメントを最適化する,プログレッシブ・リプレッション・微調整法を開発した。
MindDriverはnuScencesオープンループとBench2Driveクローズループ評価の両方で優れたパフォーマンスを示している。
コードはhttps://github.com/hotdogcheesewhite/MindDriver.comで入手できる。
関連論文リスト
- Generative Scenario Rollouts for End-to-End Autonomous Driving [58.99809446189301]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転システムの高効率な計画モデルとして登場している。
本稿では,VLAモデルのためのプラグイン・アンド・プレイフレームワークであるGenerative Scenario Rollouts (GeRo)を提案する。
論文 参考訳(メタデータ) (2026-01-16T17:59:28Z) - MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles [34.698147360764104]
ThinkDeeperは、決定を下す前に将来の空間状態を説明するフレームワークである。
Talk2Carのリーダーボードで1位にランクインし、DrivePilot、MoCAD、RefCOCO/+/gベンチマークで最先端のベースラインを上回っている。
さらに、ADにおけるマルチソースVGデータセットであるDrivePilotを紹介し、Retrieval-Augmented Generation (RAG)とChain-of-Thoughtパイプラインによって生成されるセマンティックアノテーションを特徴とする。
論文 参考訳(メタデータ) (2025-12-03T05:14:16Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。