論文の概要: DiffVLA++: Bridging Cognitive Reasoning and End-to-End Driving through Metric-Guided Alignment
- arxiv url: http://arxiv.org/abs/2510.17148v3
- Date: Thu, 30 Oct 2025 01:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 20:30:31.274504
- Title: DiffVLA++: Bridging Cognitive Reasoning and End-to-End Driving through Metric-Guided Alignment
- Title(参考訳): DiffVLA++: メトリックガイドアライメントによる認知的推論とエンドツーエンドの運転
- Authors: Yu Gao, Anqing Jiang, Yiru Wang, Wang Jijun, Hao Jiang, Zhigang Sun, Heng Yuwen, Wang Shuo, Hao Zhao, Sun Hao,
- Abstract要約: VLA(Vision-Language-Action)モデルは、世界知識を活用して挑戦的なケースを扱うが、3D推論能力に制限があるため、物理的に不可能なアクションにつながる可能性がある。
DiffVLA++は、認知的推論とE2E計画を明確にブリッジする、拡張された自律運転フレームワークである。
- 参考スコア(独自算出の注目度): 17.820853548534735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional end-to-end (E2E) driving models are effective at generating physically plausible trajectories, but often fail to generalize to long-tail scenarios due to the lack of essential world knowledge to understand and reason about surrounding environments. In contrast, Vision-Language-Action (VLA) models leverage world knowledge to handle challenging cases, but their limited 3D reasoning capability can lead to physically infeasible actions. In this work we introduce DiffVLA++, an enhanced autonomous driving framework that explicitly bridges cognitive reasoning and E2E planning through metric-guided alignment. First, we build a VLA module directly generating semantically grounded driving trajectories. Second, we design an E2E module with a dense trajectory vocabulary that ensures physical feasibility. Third, and most critically, we introduce a metric-guided trajectory scorer that guides and aligns the outputs of the VLA and E2E modules, thereby integrating their complementary strengths. The experiment on the ICCV 2025 Autonomous Grand Challenge leaderboard shows that DiffVLA++ achieves EPDMS of 49.12.
- Abstract(参考訳): 従来のエンド・ツー・エンド(E2E)駆動モデルは物理的に可算な軌跡を生成するのに効果的であるが、周囲の環境を理解し、推論するための本質的な世界知識が欠如しているため、しばしばロングテールのシナリオに一般化することができない。
対照的に、Vision-Language-Action(VLA)モデルは、世界知識を活用して挑戦的なケースを扱うが、3D推論能力の制限は物理的に不可能な行動を引き起こす可能性がある。
DiffVLA++は、認知的推論とE2E計画を明確にブリッジする、拡張された自律運転フレームワークである。
まず,意味的に接地された運転軌跡を直接生成するVLAモジュールを構築する。
第二に、物理的実現性を確保するために、高密度な軌跡ボキャブラリを持つE2Eモジュールを設計する。
第3に,VLAおよびE2Eモジュールの出力をガイド・アライメントするメトリック誘導軌道スコアラを導入し,それらの相補的強度を統合する。
ICCV 2025autonomous Grand Challengeのリーダーボードでの実験は、DiffVLA++がEPDMSの49.12を達成していることを示している。
関連論文リスト
- FlowDrive: Energy Flow Field for End-to-End Autonomous Driving [50.89871153094958]
FlowDriveは、物理的に解釈可能なエネルギーベースのフローフィールドを導入し、セマンティックな前提と安全性をBEV空間にエンコードする新しいフレームワークである。
NAVSIM v2ベンチマークの実験では、FlowDriveが最先端のパフォーマンスを86.3で達成し、安全性と計画品質の両方において以前のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-09-17T13:51:33Z) - LeAD: The LLM Enhanced Planning System Converged with End-to-end Autonomous Driving [48.607991747956255]
本稿では,大規模な言語モデル(LLM)拡張と模倣学習に基づくエンドツーエンド(E2E)フレームワークを統合した,二段階自動運転アーキテクチャLeADを提案する。
CARLAシミュレータでの実験的な評価は、LeADが従来と異なるシナリオをうまく扱えることを示し、Leadboard V1ベンチマークで71点、ルート完了率は93%である。
論文 参考訳(メタデータ) (2025-07-08T07:58:29Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。