論文の概要: Visual Room 2.0: Seeing is Not Understanding for MLLMs
- arxiv url: http://arxiv.org/abs/2511.12928v1
- Date: Mon, 17 Nov 2025 03:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.636017
- Title: Visual Room 2.0: Seeing is Not Understanding for MLLMs
- Title(参考訳): Visual Room 2.0: MLLMは理解できない
- Authors: Haokun Li, Yazhou Zhang, Jizhi Ding, Qiuchi Li, Peng Zhang,
- Abstract要約: MLLMの知覚認識アライメントを評価するための階層的ベンチマークであるtextitVisual Room 2.0 を紹介する。
人間の知覚と認知のプロセスは、低、中、高の3段階にわたってモデル化され、17の代表的なタスクをカバーしています。
データセットには350のマルチモーダルサンプルが含まれており、それぞれ6つのプログレッシブな質問(合計2,100件)が認識から認知に分散している。
- 参考スコア(独自算出の注目度): 9.870930749379932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can multi-modal large language models (MLLMs) truly understand what they can see? Extending Searle's Chinese Room into the multi-modal domain, this paper proposes the Visual Room argument: MLLMs may describe every visual detail precisely yet fail to comprehend the underlying emotions and intentions, namely seeing is not understanding. Building on this, we introduce \textit{Visual Room} 2.0, a hierarchical benchmark for evaluating perception-cognition alignment of MLLMs. We model human perceptive and cognitive processes across three levels: low, middle, and high, covering 17 representative tasks. The perception component ranges from attribute recognition to scene understanding, while the cognition component extends from textual entailment to causal and social reasoning. The dataset contains 350 multi-modal samples, each with six progressive questions (2,100 in total) spanning perception to cognition. Evaluating 10 state-of-the-art (SoTA) MLLMs, we highlight three key findings: (1) MLLMs exhibit stronger perceptual competence than cognitive ability (8.0\%$\uparrow$); (2) cognition appears not causally dependent on perception-based reasoning; and (3) cognition scales with model size, but perception does not consistently improve with larger variants. This work operationalizes Seeing $\ne$ Understanding as a testable hypothesis, offering a new paradigm from perceptual processing to cognitive reasoning in MLLMs. Our dataset is available at https://huggingface.co/datasets/LHK2003/PCBench.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、彼らが見ることができるものを本当に理解できますか?
本稿では,Searle の Chinese Room をマルチモーダル領域に拡張し,ビジュアルルームの議論を提案する。
これに基づいて,MLLMの認識・認識アライメントを評価する階層的ベンチマークである‘textit{Visual Room} 2.0’を導入する。
人間の知覚と認知のプロセスは、低、中、高の3段階にわたってモデル化され、17の代表的なタスクをカバーしています。
認識成分は属性認識からシーン理解まで様々であり、認識成分はテキストの含意から因果的・社会的推論まで様々である。
データセットには350のマルチモーダルサンプルが含まれており、それぞれ6つのプログレッシブな質問(合計2,100件)が認識から認知に分散している。
1)MLLMは認知能力よりも知覚能力が強く(8.0\%$\uparrow$)、(2)認知は知覚に基づく推論に因果的に依存せず、(3)認知尺度はモデルサイズで評価されるが、認知は大きな変種で常に改善されない。
この作業は、MLLMにおける知覚処理から認知推論への新たなパラダイムを提供する、テスト可能な仮説としての$\ne$ Understandingを運用する。
データセットはhttps://huggingface.co/datasets/LHK2003/PCBench.orgから入手可能です。
関連論文リスト
- The Percept-V Challenge: Can Multimodal LLMs Crack Simple Perception Problems? [23.22049250636057]
6000個のプログラム生成された未汚染画像を含むデータセットであるPercept-Vを30の領域に分割した。
そのため、ドメインを極めてシンプルにし、それを解決するのに必要な推論と知識を最小限にします。
我々の考えに反して、我々の実験は、Percept-Vの非常に高い人的性能と比較して、SoTAのプロプライエタリかつオープンソースMLLMの弱い性能を示している。
論文 参考訳(メタデータ) (2025-08-28T18:22:38Z) - Are MLMs Trapped in the Visual Room? [17.65871959408832]
サールの中国語室からインスピレーションを得て,bfVisual Roomの議論を提案する。
システムは、根底にある意図を真に理解することなく、アルゴリズムの規則に従って視覚入力のあらゆる詳細を処理し、記述することができる。
この研究は、提案されたVisual Room引数の実証的な基盤を提供し、新しい評価パラダイムのフォーマットを提供する。
論文 参考訳(メタデータ) (2025-05-29T09:20:12Z) - MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [50.33343842822694]
MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文 参考訳(メタデータ) (2025-05-26T18:20:22Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。
我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。
我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。