論文の概要: MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
- arxiv url: http://arxiv.org/abs/2511.03146v1
- Date: Wed, 05 Nov 2025 03:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.30864
- Title: MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
- Title(参考訳): MME-CC:認知能力のマルチモーダル評価ベンチマーク
- Authors: Kaiyuan Zhang, Chenghao Yang, Zhoufutu Wen, Sihang Yuan, Qiuyue Wang, Chaoyi Huang, Guosheng Zhu, He Wang, Huawenyu Lu, Jianing Wen, Jianpeng Jiao, Lishu Luo, Longxiang Liu, Sijin Wu, Xiaolei Zhu, Xuanliang Zhang, Ge Zhang, Yi Lin, Guang Shi, Chaoyou Fu, Wenhao Huang,
- Abstract要約: MME-CCは、11の代表的な推論タスクを3つの基本的な視覚情報カテゴリにまとめるビジョングラウンドのベンチマークである。
MME-CCに基づいて16種類のMLLMに対して広範囲な実験を行った。
我々は、方向の誤り、脆弱なクロスビュー・アイデンティティの永続性、および非現実的命令への従順性の欠如など、一般的なエラーパターンを識別する。
- 参考スコア(独自算出の注目度): 28.797461492275488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As reasoning models scale rapidly, the essential role of multimodality in human cognition has come into sharp relief, driving a growing need to probe vision-centric cognitive behaviors. Yet, existing multimodal benchmarks either overemphasize textual reasoning or fall short of systematically capturing vision-centric cognitive behaviors, leaving the cognitive capacity of MLLMs insufficiently assessed. To address this limitation, we introduce MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), a vision-grounded benchmark that organizes 11 representative reasoning tasks into three fundamental categories of visual information: spatial, geometric, and knowledge-based reasoning, and provides fine-grained analyses of MLLMs' cognitive capacity across these dimensions. Based on MME-CC, we conduct extensive experiments over 16 representative MLLMs. Our study reveals that closed-source models currently lead overall (e.g., 42.66 for Gemini-2.5-Pro vs. 30.45 for GLM-4.5V), while spatial and geometric reasoning remain broadly weak (less than or equal to 30%). We further identify common error patterns, including orientation mistakes, fragile cross-view identity persistence, and poor adherence to counterfactual instructions, and observe that Chain-of-Thought typically follows a three-stage process (extract -> reason -> verify) with heavy reliance on visual extraction. We hope this work catalyzes a shift toward treating the cognitive capacity of MLLMs as central to both evaluation and model design.
- Abstract(参考訳): 推論モデルが急速にスケールするにつれて、人間の認知におけるマルチモーダリティの本質的な役割は急激なものとなり、視覚中心の認知行動を調べる必要性が高まっている。
しかし、既存のマルチモーダルベンチマークは、テキスト推論を過度に強調するか、あるいは視覚中心の認知行動を体系的に捉えるのに足りず、MLLMの認知能力は十分に評価されていない。
MME-CC(Multi-Modal Evaluation benchmark of Cognitive Capacity)は,11の代表的な推論タスクを,空間的,幾何学的,知識に基づく推論の3つの基本的なカテゴリに分類し,MLLMの認知能力の詳細な分析を行う。
MME-CCに基づいて16種類のMLLMに対して広範囲な実験を行った。
GLM-4.5VではGemini-2.5-Proが42.66、GLM-4.5Vでは30.45)、空間的および幾何学的推論は広く弱い(30%以下)。
さらに、向きのミス、脆弱なクロスビューのパーシステンス、反ファクトインストラクションへの固執など、一般的なエラーパターンを特定し、視覚的抽出に大きく依存した3段階のプロセス(抽出 ->理由 ->検証)に従うことを観察する。
本研究は,MLLMの認知能力を,評価とモデル設計の両面において中心的に扱うためのシフトを触媒することを期待している。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。