論文の概要: MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.12624v1
- Date: Tue, 12 May 2026 18:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.61182
- Title: MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving
- Title(参考訳): MindVLA-U1:VLAが自律運転のための統一ストリーミングアーキテクチャでVAに勝る
- Authors: Yuzhou Huang, Benjin Zhu, Hengtong Lu, Victor Shea-Jay Huang, Haiming Zhang, Wei Chen, Jifeng Dai, Yan Xie, Hongsheng Li,
- Abstract要約: 我々は、自動運転のための最初の統合型ストリーミング・ビジョン・ランゲージ・アクション・アーキテクチャであるMindVLA-U1を提案する。
統一されたVLMバックボーンは、1つの共有表現上の1つのフォワードパスで自動回帰言語トークンとフローマッチング連続アクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
- 参考スコア(独自算出の注目度): 54.57163800903507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving has progressed from modular pipelines toward end-to-end unification, and Vision-Language-Action (VLA) models are a natural extension of this journey beyond Vision-to-Action (VA). In practice, driving VLAs have often trailed VA on planning quality, suggesting that the difficulty is not simply model scale but the interface through which semantic reasoning, temporal context, and continuous control are combined. We argue that this gap reflects how VLA has been built -- as isolated subtask improvements that fail to compose into coherent driving capabilities -- rather than what VLA is. We present MindVLA-U1, the first unified streaming VLA architecture for autonomous driving. A unified VLM backbone produces autoregressive language tokens and flow-matching continuous action trajectories in a single forward pass over one shared representation, preserving the natural output form of each modality. A streaming design processes the driving video framewise rather than as fixed video-action chunks, while a learned memory channel carries temporal context across frames so planned trajectories evolve smoothly without redundant multi-frame VLM modeling. The unified architecture admits fast/slow execution on dense/sparse Mixture-of-Transformers (MoT) backbones via flexible self-attention context management, and exposes a measurable language-to-action route: a language-predicted driving intent steers action diffusion through classifier-free guidance (CFG), turning language-side intent into a control signal for continuous trajectory generation. On the long-tail WOD-E2E benchmark, MindVLA-U1 surpasses experienced human drivers for the first time (8.20 RFS vs. 8.13 GT RFS) with 2 diffusion steps, achieves state-of-the-art planning ADEs over prior VA/VLA methods by large margins, and matches VA-class throughput (16 FPS vs. RAP-DINO's 18 FPS) while preserving natural-language interfaces.
- Abstract(参考訳): 自律運転はモジュラーパイプラインからエンドツーエンドの統一へと進歩し、ビジョン・ランゲージ・アクション(VLA)モデルはビジョン・ツー・アクション(VA)を超えたこの旅の自然な延長である。
実際には、VLAの運転は計画品質においてVAに追随することが多く、難易度は単にモデルスケールではなく、意味論的推論、時間的コンテキスト、継続的な制御が組み合わさったインターフェースであることが示唆されている。
このギャップは、VLAとは何かではなく、分離されたサブタスクの改善がコヒーレントな運転能力に分解できないように、VLAがどのように構築されたのかを反映している、と私たちは主張する。
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスで自動回帰言語トークンとフローマッチング連続アクショントラジェクトリを生成し、各モードの自然な出力形式を保存する。
ストリーミング設計は、固定されたビデオアクションチャンクではなく、ドライブビデオフレームを適切に処理し、学習されたメモリチャネルは、フレーム間の時間的コンテキストを伝達するので、冗長なマルチフレームVLMモデリングなしで、計画されたトラジェクトリは円滑に進化する。
統合されたアーキテクチャは、厳密でスパースなMixture-of-Transformers(MoT)バックボーン上での高速/スロー実行をフレキシブルな自己アテンションコンテキスト管理を通じて認め、測定可能な言語対アクション経路を公開する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1は2つの拡散ステップを持つ経験豊富な人間ドライバー(8.20 RFS vs. 8.13 GT RFS)を初めて上回り、従来のVA/VLAメソッドよりも大きなマージンで最先端の計画ADEを実現し、自然言語インタフェースを保ちながらVAクラスのスループット(16 FPS vs. RAP-DINOの18 FPS)にマッチする。
関連論文リスト
- OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - LMGenDrive: Bridging Multimodal Understanding and Generative World Modeling for End-to-End Driving [60.31765454895336]
本稿では、マルチモーダル理解と生成世界モデルを組み合わせた、エンドツーエンドのクローズドループ駆動のための最初のフレームワークLMGenDriveを紹介する。
本稿では,視覚前訓練から多段階長距離運転に至るまでの3段階訓練戦略を提案し,安定性と性能の向上を図る。
論文 参考訳(メタデータ) (2026-04-09T19:13:14Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Unifying Language-Action Understanding and Generation for Autonomous Driving [25.23561391638388]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして浮上している。
既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。
LinkVLAは、これらの課題に直接対処し、アライメントと効率の両方を強化する新しいアーキテクチャです。
論文 参考訳(メタデータ) (2026-03-02T04:41:10Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。