論文の概要: Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.27287v1
- Date: Sat, 28 Mar 2026 14:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.880695
- Title: Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving
- Title(参考訳): Uni-World VLA: 自律運転のためのインターリーブワールドモデリングと計画
- Authors: Qiqi Liu, Huan Xu, Jingyu Li, Bin Sun, Zhihui Hao, Dangen She, Xiatian Zhu, Li Zhang,
- Abstract要約: 我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
- 参考スコア(独自算出の注目度): 52.04950569530877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving requires reasoning about how the environment evolves and planning actions accordingly. Existing world-model-based approaches typically predict future scenes first and plan afterwards, resulting in open-loop imagination that may drift from the actual decision process. In this paper, we present Uni-World VLA, a unified vision-language-action (VLA) model that tightly interleaves future frame prediction and trajectory planning. Instead of generating a full world rollout before planning, our model alternates between predicting future frames and ego actions step by step, allowing planning decisions to be continuously conditioned on the imagined future observations. This interleaved generation forms a closed-loop interaction between world modeling and control, enabling more adaptive decision-making in dynamic traffic scenarios. In addition, we incorporate monocular depth information into frames to provide stronger geometric cues for world modeling, improving long-horizon scene prediction. Experiments on the NAVSIM benchmark show that our approach achieves competitive closed-loop planning performance while producing high-fidelity future frame predictions. These results demonstrate that tightly coupling world prediction and planning is a promising direction for scalable VLA driving systems.
- Abstract(参考訳): 自律運転は、環境がどのように進化し、それに従って計画行動を行うかについての推論を必要とする。
既存の世界モデルベースのアプローチでは、まず将来のシーンを予測し、その後計画する。
本稿では、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動(VLA)モデルであるUni-World VLAを提案する。
計画を立てる前に完全な世界展開を生成する代わりに、我々のモデルは将来の枠組みを予測することとエゴアクションをステップバイステップで交互に行い、計画決定を想像された将来の観測で継続的に条件付けできるようにします。
このインターリーブ生成は、世界モデリングと制御の間の閉ループ相互作用を形成し、動的な交通シナリオにおいてより適応的な意思決定を可能にする。
さらに,一様深度情報をフレームに組み込むことにより,世界モデリングのためのより強力な幾何学的手法を提供し,長軸シーンの予測を改善する。
NAVSIMベンチマーク実験により,提案手法は高速な将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現することを示す。
これらの結果は,世界予測と計画の密結合が,スケーラブルなVLA駆動システムにとって有望な方向であることを証明している。
関連論文リスト
- Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model [103.2513470454204]
FutureXは、エンド・ツー・エンドのプランナを強化し、将来のシーンの遅延推論と軌道修正を通じて複雑な動作計画を実行するパイプラインである。
FutureXは、より合理的な運動計画と衝突を減らすことで、効率を損なうことなく既存の方法を強化する。
論文 参考訳(メタデータ) (2025-12-12T02:12:49Z) - From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution [96.25314747309811]
将来的なシーンの進化と軌道計画を共同でモデル化する,新たなエンドツーエンドフレームワークであるSeerDriveを紹介する。
本手法はまず,周辺環境の動態を予測するために,将来の鳥眼ビュー(BEV)の表現を予測する。
2つの重要な要素がこれを可能にする:(1)予測されたBEV機能を軌道プランナーに注入する将来対応計画、(2)反復的なシーンモデリングと車両計画。
論文 参考訳(メタデータ) (2025-10-13T07:41:47Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。