論文の概要: Planning with Reasoning using Vision Language World Model
- arxiv url: http://arxiv.org/abs/2509.02722v2
- Date: Sat, 06 Sep 2025 21:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.917813
- Title: Planning with Reasoning using Vision Language World Model
- Title(参考訳): 視覚言語世界モデルを用いた推論による計画
- Authors: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung,
- Abstract要約: 本稿では,自然ビデオ上での言語に基づく世界モデリングのための基礎モデルであるビジョン言語世界モデル(VLWM)を紹介する。
視覚的な観察から、VLWMはまず全体目標達成度を推定し、インターリーブされた行動と世界状態の変化からなる軌道を予測する。
VLWMは、ベンチマーク評価と提案したPlannerArenaによる人的評価において、最先端のVisual Planning for Assistance(VPA)性能を実現する。
- 参考スコア(独自算出の注目度): 30.40687339662431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective planning requires strong world models, but high-level world models that can understand and reason about actions with semantic and temporal abstraction remain largely underdeveloped. We introduce the Vision Language World Model (VLWM), a foundation model trained for language-based world modeling on natural videos. Given visual observations, the VLWM first infers the overall goal achievements then predicts a trajectory composed of interleaved actions and world state changes. Those targets are extracted by iterative LLM Self-Refine conditioned on compressed future observations represented by Tree of Captions. The VLWM learns both an action policy and a dynamics model, which respectively facilitates reactive system-1 plan decoding and reflective system-2 planning via cost minimization. The cost evaluates the semantic distance between the hypothetical future states given by VLWM roll-outs and the expected goal state, and is measured by a critic model that we trained in a self-supervised manner. The VLWM achieves state-of-the-art Visual Planning for Assistance (VPA) performance on both benchmark evaluations and our proposed PlannerArena human evaluations, where system-2 improves the Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM baselines on RoboVQA and WorldPrediction benchmark.
- Abstract(参考訳): 効果的な計画には強力な世界モデルが必要だが、意味論と時間的抽象を伴う行動を理解し、推論できる高レベルの世界モデルは、ほとんど未発達のままである。
本稿では,自然ビデオ上での言語に基づく世界モデリングのための基礎モデルであるビジョン言語世界モデル(VLWM)を紹介する。
視覚的な観察から、VLWMはまず全体目標達成度を推定し、インターリーブされた行動と世界状態の変化からなる軌道を予測する。
それらのターゲットは、キャプションのツリーで表される圧縮された将来の観測に基づいて、反復的なLLM自己精製条件で抽出される。
VLWMはアクションポリシーと動的モデルの両方を学び、それぞれがリアクティブシステム-1計画の復号化と、コスト最小化によるリフレクティブシステム-2計画を促進する。
このコストは,VLWMロールアウトが与える仮説的将来の状態と期待目標状態とのセマンティックな距離を評価し,自己監督的な方法でトレーニングした批評家モデルによって測定される。
VLWMは、ベンチマーク評価と提案したPlannerArenaによる人体評価で最先端のVisual Planning for Assistance(VPA)性能を実現し、System-2では、System-1でEloのスコアが+27%向上する。
VLWMモデルは、RoboVQAとWorldPredictionベンチマークで強力なVLMベースラインを上回ります。
関連論文リスト
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。