論文の概要: Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.23163v2
- Date: Mon, 25 May 2026 07:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:38.050065
- Title: Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving
- Title(参考訳): Fast-dDrive: 自律運転のための効率的なブロック拡散VLM
- Authors: Kewei Zhang, Jin Wang, Sensen Gao, Chengyue Wu, Yulong Cao, Songyang Han, Boris Ivanovic, Langechuan Liu, Marco Pavone, Song Han, Daquan Zhou, Enze Xie,
- Abstract要約: 本稿では,ブロック拡散型VLAであるFast-dDriveについて述べる。
我々は、Fast-dDriveが運転エージェントの速度精度フロンティアを再定義することを示す。
- 参考スコア(独自算出の注目度): 54.31800246594724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking $N$ stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to $0.32$m (a $22\%$ improvement). When integrated with SGLang, our framework delivers $12\times$ throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルによるエンドツーエンドの自動運転は、高忠実度軌道計画と効率的な推論の間に、予期せぬバランスを必要とする。
自己回帰(AR) VLAはエッジハードウェア上でメモリ帯域幅バウンドであり、露光バイアスがドリフトする傾向にあるのに対して、フルシーケンス拡散モデルはKV-cacheの再利用を妨げ、基本的な知覚的計画因果性に反する「論理的漏洩」に悩まされる。
本稿では,ブロック拡散VLAであるFast-dDriveについて述べる。
VLAを駆動する場合には、構造化されたJSONライクな出力を出力することが多いため、Fast-dDriveは、構造トークンをセクションの足場に凍結し、安全クリティカルなプランニングを優先するセクション対応のトレーニングレシピを使用する。
さらに,Scaffold Speculative Decodingを導入し,高いスループットでAR等価な品質を実現する。
最後に、1つの共有プリフィックスKVキャッシュから$N$確率軌道ロールアウトをフォークし、それらを平均化することにより、分数計算コストで予測分散を効果的に抑制する。
実験の結果、Fast-dDriveは運転エージェントの速度精度フロンティアを再定義している。
WOD-E2Eテストセットでは、Fast-dDriveがSOTA ADE@3sとADE@5sを達成した。
SGLangと統合することで、当社のフレームワークは、ARベースライン上で12ドル以上のスループットのスピードアップを提供し、高容量のVLAとリアルタイムの車載デプロイメントの効率要件のギャップを狭めることができます。
関連論文リスト
- BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning [41.5997751218601]
BlockVLAは、事前訓練されたARバックボーンを効率的な離散拡散ポリシーに適合させるフレームワークである。
LIBERO と SimplerEnv のベンチマークを広範囲に評価する。
本モデルでは, トレーニング効率が向上し, 成功率がベースラインよりもかなり高速に収束する。
論文 参考訳(メタデータ) (2026-05-13T11:37:51Z) - MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - Enabling Dynamic Tracking in Vision-Language-Action Models via Time-Discrete and Time-Continuous Velocity Feedforward [11.066720921275648]
視覚言語アクション(VLA)モデルは、ロボット操作に非常に有望である。
厳格な産業用ロボットへの展開は、コンプライアンスと応答性の本質的にのトレードオフのため、依然として困難である。
本稿では、このトレードオフを解決するために、速度フィードフォワード項をVLAポリシーに統合することの重要性を示す。
論文 参考訳(メタデータ) (2026-03-17T07:50:00Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - SpecVLM: Fast Speculative Decoding in Vision-Language Models [14.243294546325714]
投機的復号化は自己回帰型大規模言語モデル(LLM)を高速化する強力な方法である
視覚言語モデル(VLM)の投機的復号化について検討する。
1.5--2.3xのエンドツーエンドの高速化を完全自己回帰推論で実現する実用システムであるSpecVLMを紹介する。
論文 参考訳(メタデータ) (2025-09-15T11:53:56Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。