論文の概要: DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.06521v1
- Date: Fri, 06 Feb 2026 09:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.310271
- Title: DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving
- Title(参考訳): DriveWorld-VLA: 自律運転のためのビジョン・ランゲージ・アクションを用いた統合ラテント・スペース・ワールドモデリング
- Authors: Feiyang jia, Lin Liu, Ziying Song, Caiyan Jia, Hangjun Ye, Xiaoshuai Hao, Long Chen,
- Abstract要約: DriveWorld-VLAは、潜在空間内での世界モデリングと計画を統合する新しいフレームワークである。
機能レベルでは、コントロール可能でアクション条件付きイマジネーションをサポートする。
NAVSIMv1では91.3PDMS、NAVSIMv2では86.8S、nuScenesでは0.163秒の平均衝突速度で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 25.94896726674773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) autonomous driving has recently attracted increasing interest in unifying Vision-Language-Action (VLA) with World Models to enhance decision-making and forward-looking imagination. However, existing methods fail to effectively unify future scene evolution and action planning within a single architecture due to inadequate sharing of latent states, limiting the impact of visual imagination on action decisions. To address this limitation, we propose DriveWorld-VLA, a novel framework that unifies world modeling and planning within a latent space by tightly integrating VLA and world models at the representation level, which enables the VLA planner to benefit directly from holistic scene-evolution modeling and reducing reliance on dense annotated supervision. Additionally, DriveWorld-VLA incorporates the latent states of the world model as core decision-making states for the VLA planner, facilitating the planner to assess how candidate actions impact future scene evolution. By conducting world modeling entirely in the latent space, DriveWorld-VLA supports controllable, action-conditioned imagination at the feature level, avoiding expensive pixel-level rollouts. Extensive open-loop and closed-loop evaluations demonstrate the effectiveness of DriveWorld-VLA, which achieves state-of-the-art performance with 91.3 PDMS on NAVSIMv1, 86.8 EPDMS on NAVSIMv2, and 0.16 3-second average collision rate on nuScenes. Code and models will be released in https://github.com/liulin815/DriveWorld-VLA.git.
- Abstract(参考訳): エンド・ツー・エンド(E2E)自動運転は近年、意思決定と先進的な想像力を高めるために、ビジョン・ランゲージ・アクション(VLA)とワールド・モデルを統合することへの関心が高まっている。
しかし、既存の手法は、潜在状態の不十分な共有のため、単一のアーキテクチャ内で将来のシーンの進化とアクションプランニングを効果的に統一することができず、視覚的想像力が行動決定に与える影響を制限する。
この制限に対処するため、我々は、VLAと世界モデルを表現レベルで密に統合することにより、潜在空間内での世界モデリングと計画を統合する新しいフレームワークDriveWorld-VLAを提案する。
さらに、DriveWorld-VLAは、世界モデルの潜在状態をVLAプランナの中核的な意思決定状態として取り込んでおり、プランナが将来のシーンの進化にどのように影響するかを評価するのに役立つ。
DriveWorld-VLAは、潜在空間で完全に世界モデリングを行うことで、高解像度のピクセルレベルのロールアウトを避けるために、機能レベルで制御可能なアクション条件付きイマジネーションをサポートする。
大規模なオープンループおよびクローズループ評価は、NAVSIMv1では91.3 PDMS、NAVSIMv2では86.8 PDMS、nuScenesでは0.16 3秒平均衝突速度で最先端の性能を達成するDriveWorld-VLAの有効性を示す。
コードとモデルはhttps://github.com/liulin815/DriveWorld-VLA.gitでリリースされる。
関連論文リスト
- DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - Planning with Reasoning using Vision Language World Model [30.40687339662431]
本稿では,自然ビデオ上での言語に基づく世界モデリングのための基礎モデルであるビジョン言語世界モデル(VLWM)を紹介する。
視覚的な観察から、VLWMはまず全体目標達成度を推定し、インターリーブされた行動と世界状態の変化からなる軌道を予測する。
VLWMは、ベンチマーク評価と提案したPlannerArenaによる人的評価において、最先端のVisual Planning for Assistance(VPA)性能を実現する。
論文 参考訳(メタデータ) (2025-09-02T18:18:57Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - End-to-End Driving with Online Trajectory Evaluation via BEV World Model [52.10633338584164]
本稿では,BEV Worldモデルを活用し,将来のBEV状態を予測するためのエンドツーエンド駆動フレームワークWoTEを提案する。
我々は,NAVSIMベンチマークとCARLAシミュレータに基づく閉ループBench2Driveベンチマークを用いて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:47:23Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。