論文の概要: World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning
- arxiv url: http://arxiv.org/abs/2606.03603v1
- Date: Tue, 02 Jun 2026 13:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.013538
- Title: World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning
- Title(参考訳): 言語モデルと世界モデル:コンクリートと抽象推論の相補性について
- Authors: Yucheng Zhou, Wei Tao, Yiwen Guo, Jianbing Shen,
- Abstract要約: 本研究では,抽象的推論を伴う視覚的未来のシミュレーションを,モデルがどのように実行し,検証し,統合するかを考察する。
PF-OPSDは、教師側の特権的文脈としてのみ、地道な未来のビデオと回答を使用して、政治上の具体的な軌道を評価する。
- 参考スコア(独自算出の注目度): 67.93052893044603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models and multimodal large language models (MLLMs) provide complementary capabilities for predicting future outcomes from static visual observations. World models can generate concrete visual rollouts of possible futures, while MLLMs can reason abstractly over questions, goals, and rules. However, generated rollouts are stochastic and may be visually plausible but task-incorrect, making it necessary to determine when visual simulation is useful, whether a rollout is credible, and how it should influence the final answer. We formulate this problem as controlled concrete reasoning, where a model learns to invoke, verify, and integrate visual future simulation alongside abstract reasoning. To study this setting, we construct two human-verified benchmarks, VRQABench for controllable spatial lookahead and OpenWorldQA for open-domain physical prediction, and propose Privileged-Future On-Policy Self-Distillation (PF-OPSD). During training, PF-OPSD uses ground-truth future videos and answers only as teacher-side privileged context to evaluate on-policy concrete-reasoning trajectories, while the deployable student never observes true futures at test time. Experimental results show that PF-OPSD outperforms baseline by 10.6% and 10.9% on VRQABench and OpenWorldQA, respectively, while increasing robustness to noisy or conflicting rollouts. Our code and dataset are available at https://github.com/yczhou001/PF-OPSD.
- Abstract(参考訳): 世界モデルとマルチモーダル大言語モデル(MLLM)は、静的な視覚観測から将来の結果を予測するための補完機能を提供する。
MLLMは、質問、ゴール、ルールについて抽象的に推論することができる。
しかし、生成したロールアウトは確率的であり、視覚的に妥当であるが、タスク不正確であるため、視覚シミュレーションがいつ有用か、ロールアウトが信頼できるかどうか、最終回答にどのように影響するかを判断する必要がある。
我々は,この問題を,抽象的推論とともに視覚的将来のシミュレーションの実行,検証,統合を学習する,制御された具体的な推論として定式化する。
そこで本研究では,オープンドメインの物理予測を行うために,VRQABenchとOpenWorldQAの2つの評価ベンチマークを構築し,PF-OPSD(Privleged-Future On-Policy Self-Distillation)を提案する。
訓練中、PF-OPSDは、教師側の特権的文脈としてのみ、真の未来のビデオと答えを使用して、政治上の具体的な軌道を評価できる一方で、デプロイ可能な学生はテスト時に真の未来を観測することはない。
実験の結果、PF-OPSDはVRQABenchとOpenWorldQAでベースラインを10.6%上回り、ノイズや競合するロールアウトに対する堅牢性を高めた。
私たちのコードとデータセットはhttps://github.com/yczhou001/PF-OPSD.orgで公開されています。
関連論文リスト
- Learning POMDP World Models from Observations with Language-Model Priors [52.11151769796862]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、内部世界モデルのための柔軟なモデリングクラスを提供する。
先行知識を活用することで,言語モデルがコストのかかる相互作用を低減できるかどうかを問う。
我々は,emphPinductor が LLM ベースの POMDP 学習手法の性能とサンプル効率に一致することを示す。
論文 参考訳(メタデータ) (2026-05-13T16:18:15Z) - ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving [19.081114003415863]
我々は,意味のある探索と密集した監視を実現するために,統合された理解・生成の枠組みを提案する。
我々は、高密度世界モデリングの目的として、将来のRGBと深度画像生成による軌道予測を強化した。
我々は、この探索信号を安全性の高い報酬に組み込んで、ポリシーを最適化する。
論文 参考訳(メタデータ) (2026-04-03T04:14:13Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - VFMF: World Modeling by Forecasting Vision Foundation Model Features [67.09340259579761]
本稿では,視覚基礎モデルの特徴空間における自己回帰フローマッチングを行う生成予測器を提案する。
この潜伏情報の方がPCAベースの代替案よりも効果的であることを示す。
一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
論文 参考訳(メタデータ) (2025-12-12T02:10:05Z) - When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。
DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。
その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文 参考訳(メタデータ) (2025-11-08T21:09:44Z) - ACT-Bench: Towards Action Controllable World Models for Autonomous Driving [2.6749009435602122]
世界モデルは自律運転のための有望な神経シミュレータとして登場した。
動作の忠実度を定量化するためのオープンアクセス評価フレームワーク ACT-Bench を開発した。
現状のモデルが与えられた指示に完全に従わないことを示す一方で,Terraは改善された行動忠実性を実現する。
論文 参考訳(メタデータ) (2024-12-06T01:06:28Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。