論文の概要: Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
- arxiv url: http://arxiv.org/abs/2506.04633v1
- Date: Thu, 05 Jun 2025 05:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.538795
- Title: Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
- Title(参考訳): 空間認知の展開:視覚シミュレーションによるマルチモーダルモデルの評価
- Authors: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna,
- Abstract要約: 既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
- 参考スコア(独自算出の注目度): 61.235500325327585
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial cognition is essential for human intelligence, enabling problem-solving through visual simulations rather than solely relying on verbal reasoning. However, existing AI benchmarks primarily assess verbal reasoning, neglecting the complexities of non-verbal, multi-step visual simulation. We introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark designed to rigorously evaluate multimodal large language models on tasks better solved through multi-step visual simulation. STARE features 4K tasks spanning foundational geometric transformations (2D and 3D), integrated spatial reasoning (cube net folding and tangram puzzles), and real-world spatial reasoning (perspective and temporal reasoning), reflecting practical cognitive challenges like object assembly, mechanical diagram interpretation, and everyday spatial navigation. Our evaluations show that models excel at reasoning over simpler 2D transformations, but perform close to random chance on more complex tasks like 3D cube net folding and tangram puzzles that require multi-step visual simulations. Humans achieve near-perfect accuracy but take considerable time (up to 28.9s) on complex tasks, significantly speeding up (down by 7.5 seconds on average) with intermediate visual simulations. In contrast, models exhibit inconsistent performance gains from visual simulations, improving on most tasks but declining in specific cases like tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0 Flash), indicating that models may not know how to effectively leverage intermediate visual information.
- Abstract(参考訳): 空間認知は人間の知性にとって不可欠であり、言語推論にのみ依存するのではなく、視覚シミュレーションによる問題解決を可能にする。
しかし、既存のAIベンチマークは主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STARE(Spatial Transformations and Reasoning Evaluation, STARE)は,マルチステップ視覚シミュレーションにより,タスク上のマルチモーダルな大規模言語モデルをより正確に評価するためのベンチマークである。
STAREは、基本的な幾何学的変換(2Dと3D)、統合空間推論(キューブネットフォールディングとタングラムパズル)、現実世界空間推論(パースペクティブと時間的推論)にまたがる4Kタスクを特徴とし、オブジェクトアセンブリ、メカニカルダイアグラムの解釈、日々の空間ナビゲーションといった現実的な認知的課題を反映している。
評価の結果,3次元立方体ネットの折り畳みやマルチステップ視覚シミュレーションを必要とするタングラムパズルといった複雑なタスクにおいて,モデルがより単純な2次元変換よりも優れていることが示唆された。
人間はほぼ完全な精度を達成できるが、複雑なタスクでは相当な時間(最大28.9秒)を要し、中間的な視覚シミュレーションでは、平均7.5秒で大幅にスピードアップする。
対照的に、モデルは視覚シミュレーションから不整合のパフォーマンス向上を示し、ほとんどのタスクを改善するが、タングラムパズル (GPT-4o, o1) や立方体ネット折り畳み (Claude-3.5, Gemini-2.0 Flash) のような特定のケースでは減少し、モデルが中間視覚情報を効果的に活用する方法を知らないことを示している。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks [42.022527376404476]
Embodied Reasonerは、o1スタイルの推論をインタラクティブなエボダイド検索タスクに拡張するモデルである。
我々は、64kの対話画像と90kの多様な思考プロセスを含む9.3kのコヒーレントな観測・推察軌道を合成する。
モデルの性能を段階的に向上する3段階のトレーニングパイプラインを開発している。
論文 参考訳(メタデータ) (2025-03-27T17:00:51Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [36.051170815296985]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。