論文の概要: Learning Vision-Language-Action World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.09059v1
- Date: Fri, 10 Apr 2026 07:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.752022
- Title: Learning Vision-Language-Action World Models for Autonomous Driving
- Title(参考訳): 自律運転のためのビジョン・ランゲージ・アクション世界モデル学習
- Authors: Guoqing Wang, Pin Tang, Xiangxuan Ren, Guodongfang Zhao, Bailan Feng, Chao Ma,
- Abstract要約: VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
- 参考スコア(独自算出の注目度): 15.103497388527943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently achieved notable progress in end-to-end autonomous driving by integrating perception, reasoning, and control within a unified multimodal framework. However, they often lack explicit modeling of temporal dynamics and global world consistency, which limits their foresight and safety. In contrast, world models can simulate plausible future scenes but generally struggle to reason about or evaluate the imagined future they generate. In this work, we present VLA-World, a simple yet effective VLA world model that unifies predictive imagination with reflective reasoning to improve driving foresight. VLA-World first uses an action-derived feasible trajectory to guide the generation of the next-frame image, capturing rich spatial and temporal cues that describe how the surrounding environment evolves. The model then reasons over this self-generated future imagined frame to refine the predicted trajectory, achieving higher performance and better interpretability. To support this pipeline, we curate nuScenes-GR-20K, a generative reasoning dataset derived from nuScenes, and employ a three-stage training strategy that includes pretraining, supervised fine-tuning, and reinforcement learning. Extensive experiments demonstrate that VLA-World consistently surpasses state-of-the-art VLA and world-model baselines on both planning and future-generation benchmarks. Project page: https://vlaworld.github.io
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、統合されたマルチモーダルフレームワーク内で知覚、推論、制御を統合することによって、エンドツーエンドの自動運転において顕著な進歩を遂げた。
しかし、それらは時相力学とグローバル世界の一貫性の明示的なモデリングを欠くことが多く、その見通しと安全性を制限している。
対照的に、世界モデルは、もっともらしい未来のシーンをシミュレートすることができるが、一般的に、彼らが生み出す想像された未来を推論したり、評価するのに苦労する。
本稿では,VLA-Worldについて述べる。VLA-Worldは,予測的想像力と反射的推論を統一し,運転予見を改善するための,シンプルで効果的なVLA世界モデルである。
VLA-Worldは、まずアクションから導かれる実現可能な軌道を使って、次のフレーム画像の生成を誘導し、周囲の環境がどのように進化するかを記述する、豊かな空間的および時間的手がかりを捉えている。
このモデルは、予測された軌道を洗練させ、より高い性能とより良い解釈可能性を達成するために、この自己生成された未来的なフレームを理由付けている。
このパイプラインをサポートするために、nuScenes-GR-20K(nuScenesから派生した生成推論データセット)をキュレートし、事前学習、教師付き微調整、強化学習を含む3段階のトレーニング戦略を採用する。
VLA-Worldは、計画と将来のベンチマークの両方において、最先端のVLAとワールドモデルベースラインを一貫して上回っている。
プロジェクトページ: https://vlaworld.github.io
関連論文リスト
- LMGenDrive: Bridging Multimodal Understanding and Generative World Modeling for End-to-End Driving [60.31765454895336]
本稿では、マルチモーダル理解と生成世界モデルを組み合わせた、エンドツーエンドのクローズドループ駆動のための最初のフレームワークLMGenDriveを紹介する。
本稿では,視覚前訓練から多段階長距離運転に至るまでの3段階訓練戦略を提案し,安定性と性能の向上を図る。
論文 参考訳(メタデータ) (2026-04-09T19:13:14Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving [25.94896726674773]
DriveWorld-VLAは、潜在空間内での世界モデリングと計画を統合する新しいフレームワークである。
機能レベルでは、コントロール可能でアクション条件付きイマジネーションをサポートする。
NAVSIMv1では91.3PDMS、NAVSIMv2では86.8S、nuScenesでは0.163秒の平均衝突速度で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-02-06T09:25:48Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。