論文の概要: 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
- arxiv url: http://arxiv.org/abs/2508.20068v1
- Date: Wed, 27 Aug 2025 17:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.722539
- Title: 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
- Title(参考訳): 11Plus-Bench:認知に着想を得たマルチモーダルLLM空間推論
- Authors: Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei,
- Abstract要約: 本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 54.24689751375923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For human cognitive process, spatial reasoning and perception are closely entangled, yet the nature of this interplay remains underexplored in the evaluation of multimodal large language models (MLLMs). While recent MLLM advancements show impressive performance on reasoning, their capacity for human-like spatial cognition remains an open question. In this work, we introduce a systematic evaluation framework to assess the spatial reasoning abilities of state-of-the-art MLLMs relative to human performance. Central to our work is 11Plus-Bench, a high-quality benchmark derived from realistic standardized spatial aptitude tests. 11Plus-Bench also features fine-grained expert annotations of both perceptual complexity and reasoning process, enabling detailed instance-level analysis of model behavior. Through extensive experiments across 14 MLLMs and human evaluation, we find that current MLLMs exhibit early signs of spatial cognition. Despite a large performance gap compared to humans, MLLMs' cognitive profiles resemble those of humans in that cognitive effort correlates strongly with reasoning-related complexity. However, instance-level performance in MLLMs remains largely random, whereas human correctness is highly predictable and shaped by abstract pattern complexity. These findings highlight both emerging capabilities and limitations in current MLLMs' spatial reasoning capabilities and provide actionable insights for advancing model design.
- Abstract(参考訳): 人間の認知過程において、空間的推論と知覚は密接に絡み合っているが、この相互作用の性質は、マルチモーダルな大言語モデル(MLLM)の評価において過小評価されている。
近年のMLLMの進歩は推論において顕著な性能を示したが、人間のような空間認知能力は未解決のままである。
本研究では,ヒトのパフォーマンスに対する最先端MLLMの空間的推論能力を評価するための体系的評価フレームワークを提案する。
私たちの研究の中心は11Plus-Benchです。これは、現実的な標準化された空間適性テストから派生した高品質なベンチマークです。
11Plus-Benchはまた、知覚複雑性と推論プロセスの両方の詳細な専門家アノテーションを備えており、モデル動作のインスタンスレベルの詳細な分析を可能にしている。
14個のMLLMにまたがる広範囲な実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
MLLMの認知的プロファイルは、人間に比べて大きなパフォーマンスの差があるにもかかわらず、認知的努力が推論に関連した複雑さと強く関連しているという人間のものと類似している。
しかし、MLLMのインスタンスレベルの性能は大半がランダムであり、人間の正しさは予測可能であり、抽象的なパターンの複雑さによって形作られる。
これらの知見は、現在のMLLMの空間推論能力の出現能力と限界の両方を強調し、モデル設計を進めるための実用的な洞察を提供する。
関連論文リスト
- SpatialViz-Bench: Automatically Generated Spatial Visualization Reasoning Tasks for MLLMs [43.82781630267406]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Human-like object concept representations emerge naturally in multimodal large language models [24.003766123531545]
大規模言語モデル(LLM)における対象概念表現と人間の認知との関係を考察するために,行動解析と神経画像解析を併用した。
我々の発見は、マシンインテリジェンスに対する理解を深め、より人間的な人工知能システムの開発に報いる。
論文 参考訳(メタデータ) (2024-07-01T08:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。