論文の概要: Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion
- arxiv url: http://arxiv.org/abs/2602.20577v1
- Date: Tue, 24 Feb 2026 05:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.624259
- Title: Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion
- Title(参考訳): Masked Vision-Language-Action Diffusionによる効率的かつ説明可能なエンドツーエンド自動運転
- Authors: Jiaru Zhang, Manav Gagvani, Can Cui, Juntong Peng, Ruqi Zhang, Ziran Wang,
- Abstract要約: Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。
本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。
nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 23.834662472392694
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have emerged as promising candidates for end-to-end autonomous driving. However, these models typically face challenges in inference latency, action precision, and explainability. Existing autoregressive approaches struggle with slow token-by-token generation, while prior diffusion-based planners often rely on verbose, general-purpose language tokens that lack explicit geometric structure. In this work, we propose Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD), a novel framework designed to bridge the gap between efficient planning and semantic explainability via a masked vision-language-action diffusion model. Unlike methods that force actions into the language space, we introduce a discrete action tokenization strategy that constructs a compact codebook of kinematically feasible waypoints from real-world driving distributions. Moreover, we propose geometry-aware embedding learning to ensure that embeddings in the latent space approximate physical geometric metrics. Finally, an action-priority decoding strategy is introduced to prioritize trajectory generation. Extensive experiments on nuScenes and derived benchmarks demonstrate that MVLAD-AD achieves superior efficiency and outperforms state-of-the-art autoregressive and diffusion baselines in planning precision, while providing high-fidelity and explainable reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)と視覚言語モデル(VLM)は、エンドツーエンドの自動運転の候補として期待されている。
しかしながら、これらのモデルは通常、推論レイテンシ、アクション精度、説明可能性の課題に直面します。
既存の自己回帰的アプローチはトークン・バイ・トケン生成の遅さに苦慮する一方、事前拡散ベースのプランナーはしばしば、明示的な幾何学的構造を持たない冗長で汎用的な言語トークンに依存している。
本研究では,自律運転のためのMasked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)を提案する。
言語空間にアクションを強制する手法とは異なり、実世界の運転分布から運動的に実現可能なウェイポイントのコンパクトなコードブックを構築する離散的なアクショントークン化戦略を導入する。
さらに, 位置認識型埋め込み学習を提案し, 潜在空間への埋め込みが物理幾何学的測度に近似することを保証する。
最後に、軌道生成を優先するために、アクションプライオリティ復号戦略を導入する。
nuScenesと派生ベンチマークの広範な実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的・拡散的ベースラインよりも優れ、高忠実で説明可能な推論を提供することを示した。
関連論文リスト
- FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-01-29T02:36:19Z) - LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction [19.57998167905048]
大規模データセットでトレーニングされたエンドツーエンドの自律運転モデルは、一般的なシナリオではうまく機能するが、稀で長い尾の状況では苦労する。
近年のVision-Language-Action(VLA)モデルは、事前訓練されたビジョンモデルから幅広い知識を活用して、この制限に対処している。
言語アノテーションを使わずにVLAモデルをトレーニングするために,自己教師付き潜在動作予測を用いた新しいフレームワークであるLatentVLAを提案する。
論文 参考訳(メタデータ) (2026-01-09T08:06:44Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving [9.719456684859606]
WAM-Diffは、マスク拡散を利用して、将来のエゴ軌道を表す離散シーケンスを洗練するフレームワークである。
NAVSIM-v1では91.0PDMS, NAVSIM-v2では89.7Sを達成し, 自律運転におけるマスク拡散の有効性を示した。
論文 参考訳(メタデータ) (2025-12-06T10:51:53Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space [74.12387631212609]
本稿では、音声波形を連続的な潜在表現の列に符号化することで、音声言語モデリングの代替手法であるSLEDを紹介する。
SLEDは離散化エラーを回避し、既存の言語モデルに共通する複雑な階層アーキテクチャの必要性を排除する。
実験結果から,SLEDはゼロショット音声合成とストリーミング音声合成の両方において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-19T14:38:59Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。