論文の概要: dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning
- arxiv url: http://arxiv.org/abs/2512.04459v1
- Date: Thu, 04 Dec 2025 05:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.999909
- Title: dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning
- Title(参考訳): dVLM-AD:制御可能な推論による運転用拡散ビジョンランゲージモデル
- Authors: Yingzi Ma, Yulong Cao, Wenhao Ding, Shuibai Zhang, Yan Wang, Boris Ivanovic, Ming Jiang, Marco Pavone, Chaowei Xiao,
- Abstract要約: 本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
- 参考スコア(独自算出の注目度): 69.36145467833498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The autonomous driving community is increasingly focused on addressing the challenges posed by out-of-distribution (OOD) driving scenarios. A dominant research trend seeks to enhance end-to-end (E2E) driving systems by integrating vision-language models (VLMs), leveraging their rich world knowledge and reasoning abilities to improve generalization across diverse environments. However, most existing VLMs or vision-language agents (VLAs) are built upon autoregressive (AR) models. In this paper, we observe that existing AR-based VLMs -- limited by causal attention and sequential token generation -- often fail to maintain consistency and controllability between high-level reasoning and low-level planning. In contrast, recent discrete diffusion VLMs equipped with bidirectional attention exhibit superior controllability and reliability through iterative denoising. Building on these observations, we introduce dVLM-AD, a diffusion-based vision-language model that unifies perception, structured reasoning, and low-level planning for end-to-end driving. Evaluated on nuScenes and WOD-E2E, dVLM-AD yields more consistent reasoning-action pairs and achieves planning performance comparable to existing driving VLM/VLA systems despite a modest backbone, outperforming AR-based baselines with a 9 percent improvement in behavior-trajectory consistency and a 6 percent increase in RFS on long-tail WOD-E2E scenarios. These results suggest a controllable and reliable pathway for scalable end-to-end driving.
- Abstract(参考訳): 自動運転コミュニティは、アウト・オブ・ディストリビューション(OOD)駆動シナリオによる課題に対処することに注力している。
先進的な研究トレンドは、視覚言語モデル(VLM)を統合することによって、エンド・ツー・エンド(E2E)駆動システムを強化し、豊かな世界知識と推論能力を活用し、多様な環境における一般化を改善することを目指している。
しかしながら、既存のVLMや視覚言語エージェント(VLA)のほとんどは自己回帰(AR)モデルに基づいて構築されている。
本稿では、既存のARベースのVLM(因果的注意とシーケンシャルトークン生成によって制限される)は、高レベルの推論と低レベルの計画の一貫性と制御性を維持できないことが多いことを観察する。
対照的に、近年、双方向の注意を付加した離散拡散VLMは、反復的復調による制御性と信頼性に優れていた。
これらの観測結果に基づいて,認識,構造化推論,エンド・ツー・エンド・ドライブのための低レベルプランニングを統一する拡散型視覚言語モデルであるdVLM-ADを導入する。
nuScenesとWOD-E2Eに基づいて評価され、dVLM-ADはより一貫性のある推論-アクションペアを獲得し、バックボーンが緩やかなにもかかわらず既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
これらの結果は、スケーラブルなエンドツーエンド駆動のための制御可能で信頼性の高い経路を示唆している。
関連論文リスト
- Enhancing End-to-End Autonomous Driving with Risk Semantic Distillaion from VLM [14.016225216093643]
リスクセマンティック蒸留(RSD)は、視覚言語モデル(VLM)を利用して、エンド・トゥ・エンド(E2E)自動運転バックボーンのトレーニングを強化する新しいフレームワークである。
具体的には、Vision-Language Models から Bird's-Eye-View (BEV) 機能への因果リスク推定を蒸留するプラグインモジュールである RiskHead を紹介する。
Bench2Driveベンチマーク実験では,複雑な運転条件と予測不可能な運転条件の管理におけるRSDの有効性を示した。
論文 参考訳(メタデータ) (2025-11-18T13:46:18Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。