論文の概要: Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
- arxiv url: http://arxiv.org/abs/2506.21876v1
- Date: Fri, 27 Jun 2025 03:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.069401
- Title: Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
- Title(参考訳): ビジョンランゲージモデルには内的世界モデルが存在するか? : 原子的評価に向けて
- Authors: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu,
- Abstract要約: 内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
- 参考スコア(独自算出の注目度): 54.3628937181904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internal world models (WMs) enable agents to understand the world's state and predict transitions, serving as the basis for advanced deliberative reasoning. Recent large Vision-Language Models (VLMs), such as OpenAI o3, GPT-4o and Gemini, exhibit potential as general-purpose WMs. While the latest studies have evaluated and shown limitations in specific capabilities such as visual understanding, a systematic evaluation of VLMs' fundamental WM abilities remains absent. Drawing on comparative psychology and cognitive science, we propose a two-stage framework that assesses Perception (visual, spatial, temporal, quantitative, and motion) and Prediction (mechanistic simulation, transitive inference, compositional inference) to provide an atomic evaluation of VLMs as WMs. Guided by this framework, we introduce WM-ABench, a large-scale benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse simulated environments with controlled counterfactual simulations. Through 660 experiments on 15 latest commercial and open-source VLMs, we find that these models exhibit striking limitations in basic world modeling abilities. For instance, almost all models perform at near-random accuracy when distinguishing motion trajectories. Additionally, they lack disentangled understanding -- e.g., some models tend to believe blue objects move faster than green ones. More rich results and analyses reveal significant gaps between VLMs and human-level world modeling.
- Abstract(参考訳): 内的世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にし、高度な熟考的推論の基礎となる。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
最新の研究では、視覚的理解のような特定の能力の限界を評価・示したが、VLMの基本的WM能力の体系的評価はいまだに残っていない。
比較心理学と認知科学に基づいて,視覚,空間,時間,量,動き)と予測(機械的シミュレーション,推移的推論,構成推論)を評価する2段階の枠組みを提案し,VLMの原子的評価をWMとして提供する。
このフレームワークによって導かれたWM-ABenchは、6つの異なるシミュレーション環境にわたる23のきめ細かい評価次元からなる大規模なベンチマークであり、制御された反事実シミュレーションである。
15の商用およびオープンソースVLMに関する660の実験を通して、これらのモデルが基本的世界モデリング能力に著しい制限を呈していることが判明した。
例えば、ほとんどのモデルが運動軌跡を区別する際にほぼランダムな精度で機能する。
例えば、あるモデルは、青いオブジェクトが緑のオブジェクトよりも速く動くと信じている傾向があります。
よりリッチな結果と分析により、VLMと人間レベルの世界モデリングの間に大きなギャップが浮かび上がっている。
関連論文リスト
- From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models [17.235722538085263]
本研究では,大言語モデル(MLLM)における心の理論(ToM)の解釈可能性に基づく評価を実現するための内部メカニズムに基づくアプローチを採用する。
まず,マルチモーダルなToMテストデータセットであるGridToMを構築した。
次に,マルチモーダル大モデルにおける注目の頭脳は,視点によって認知情報を識別し,ToM能力の証拠となることを示す。
論文 参考訳(メタデータ) (2025-06-17T06:27:42Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Learning World Models With Hierarchical Temporal Abstractions: A Probabilistic Perspective [2.61072980439312]
内部世界モデルを開発するためのフォーマリズムの開発は、人工知能と機械学習の分野における重要な研究課題である。
この論文は、状態空間モデルを内部世界モデルとして広く用いられることによるいくつかの制限を識別する。
形式主義におけるモデルの構造は、信念の伝播を用いた正確な確率的推論を促進するとともに、時間を通してのバックプロパゲーションによるエンドツーエンドの学習を促進する。
これらの形式主義は、世界の状態における不確実性の概念を統合し、現実世界の性質をエミュレートし、その予測の信頼性を定量化する能力を向上させる。
論文 参考訳(メタデータ) (2024-04-24T12:41:04Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。