論文の概要: WorldVLM: Combining World Model Forecasting and Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2603.14497v1
- Date: Sun, 15 Mar 2026 17:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.851717
- Title: WorldVLM: Combining World Model Forecasting and Vision-Language Reasoning
- Title(参考訳): WorldVLM: World Model ForecastingとVision-Language Reasoningを組み合わせて
- Authors: Stefan Englmeier, Katharina Winter, Fabian B. Flohr,
- Abstract要約: 視覚言語モデル (VLM) と世界モデル (WM) を統合するハイブリッドアーキテクチャ WorldVLM を提案する。
我々の設計では、高レベルなVLMは駆動WMを誘導する動作コマンドを生成し、解釈可能かつコンテキスト対応な動作を可能にする。
- 参考スコア(独自算出の注目度): 0.2905751301655124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving systems depend on on models that can reason about high-level scene contexts and accurately predict the dynamics of their surrounding environment. Vision- Language Models (VLMs) have recently emerged as promising tools for decision-making and scene understanding, offering strong capabilities in contextual reasoning. However, their limited spatial comprehension constrains their effectiveness as end-to-end driving models. World Models (WM) internalize environmental dynamics to predict future scene evolution. Recently explored as ego-motion predictors and foundation models for autonomous driving, they represent a promising direction for addressing key challenges in the field, particularly enhancing generalization while maintaining dynamic prediction. To leverage the complementary strengths of context-based decision making and prediction, we propose WorldVLM: A hybrid architecture that unifies VLMs and WMs. In our design, the high-level VLM generates behavior commands to guide the driving WM, enabling interpretable and context-aware actions. We evaluate conditioning strategies and provide insights into the hybrid design challenges.
- Abstract(参考訳): 自律運転システムは、高レベルのシーンコンテキストを推論し、周囲の環境のダイナミクスを正確に予測できるモデルに依存する。
ビジョン言語モデル(VLM)は最近、意思決定とシーン理解のための有望なツールとして登場し、コンテキスト推論において強力な能力を提供している。
しかし、その空間的理解の制限は、エンド・ツー・エンドの駆動モデルとしての有効性を制約する。
世界モデル(WM)は環境力学を内部化し、将来のシーンの進化を予測する。
近年,自律運転のためのエゴモーション予測モデルや基礎モデルとして検討され,特に動的予測を維持しながら一般化を向上するなど,この分野における課題に対処する上で有望な方向性を示す。
文脈に基づく意思決定と予測の相補的な長所を活用するために,VLMとWMを統一したハイブリッドアーキテクチャ WorldVLMを提案する。
我々の設計では、高レベルなVLMは駆動WMを誘導する動作コマンドを生成し、解釈可能かつコンテキスト対応な動作を可能にする。
コンディショニング戦略を評価し、ハイブリッドデザインの課題に対する洞察を提供する。
関連論文リスト
- SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving [10.980525810871827]
本稿では,シーン適応型視覚ランゲージ・アクション・フレームワークであるSAMoE-VLAを提案する。
私たちのキーとなるアイデアは、交通シーンのコンテキストをカプセル化した鳥眼視(BEV)機能からMoEルーティング信号を導き出すことです。
本研究では,世界認知,知覚,言語,行動の時間的一貫した推論を支援するために,条件付きクロスモーダル因果注意機構を導入する。
論文 参考訳(メタデータ) (2026-03-09T08:54:03Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。