論文の概要: Are MLMs Trapped in the Visual Room?
- arxiv url: http://arxiv.org/abs/2505.23272v2
- Date: Fri, 30 May 2025 14:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.149204
- Title: Are MLMs Trapped in the Visual Room?
- Title(参考訳): MLMはビジュアルルームにトラップされているか?
- Authors: Yazhou Zhang, Chunwang Zou, Qimeng Liu, Lu Rong, Ben Yao, Zheng Lian, Qiuchi Li, Peng Zhang, Jing Qin,
- Abstract要約: サールの中国語室からインスピレーションを得て,bfVisual Roomの議論を提案する。
システムは、根底にある意図を真に理解することなく、アルゴリズムの規則に従って視覚入力のあらゆる詳細を処理し、記述することができる。
この研究は、提案されたVisual Room引数の実証的な基盤を提供し、新しい評価パラダイムのフォーマットを提供する。
- 参考スコア(独自算出の注目度): 17.65871959408832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can multi-modal large models (MLMs) that can ``see'' an image be said to ``understand'' it? Drawing inspiration from Searle's Chinese Room, we propose the \textbf{Visual Room} argument: a system may process and describe every detail of visual inputs by following algorithmic rules, without genuinely comprehending the underlying intention. This dilemma challenges the prevailing assumption that perceptual mastery implies genuine understanding. In implementation, we introduce a two-tier evaluation framework spanning perception and cognition. The perception component evaluates whether MLMs can accurately capture the surface-level details of visual contents, where the cognitive component examines their ability to infer sarcasm polarity. To support this framework, We further introduce a high-quality multi-modal sarcasm dataset comprising both 924 static images and 100 dynamic videos. All sarcasm labels are annotated by the original authors and verified by independent reviewers to ensure clarity and consistency. We evaluate eight state-of-the-art (SoTA) MLMs. Our results highlight three key findings: (1) MLMs demonstrate high accuracy in visual perception; (2) even with correct perception, MLMs exhibit an average error rate of ~17.1\% in sarcasm understanding, revealing a significant gap between seeing and understanding; (3) this gap stems from weaknesses in context integration, emotional reasoning, and pragmatic inference. This work provides empirical grounding for the proposed Visual Room argument and offers a new evaluation paradigm for MLMs.
- Abstract(参考訳): マルチモーダルな大モデル (MLM) は、イメージを ``understand' と呼ぶことができるだろうか?
そこで,Searleの中国語室からインスピレーションを得たシステムでは,意図を真に理解することなく,アルゴリズム的なルールに従うことによって,視覚的な入力の詳細な処理と記述を行うことができる,という,‘textbf{Visual Room} の議論を提案する。
このジレンマは、知覚的な熟達が真の理解を意味するという一般的な仮定に挑戦する。
本稿では,認識と認知にまたがる2層評価フレームワークを提案する。
知覚成分は、MLMが視覚内容の表面レベルの詳細を正確に捉えることができるかどうかを評価する。
このフレームワークをサポートするために、924の静止画像と100のダイナミックビデオからなる高品質なマルチモーダルサルカムデータセットについても紹介する。
すべてのサルカズムラベルはオリジナルの著者によって注釈付けされ、独立系レビュアーによって明確さと一貫性を保証するために検証されている。
我々は8つの最先端(SoTA)MLMを評価した。
その結果,(1)MLMは視覚知覚の精度が高いこと,(2)正しい知覚であっても,MLMは平均誤差率 ~17.1 % を示し,視線と理解の間に有意な差があること,(3) このギャップは文脈統合,感情的推論,実践的推論の弱点に起因していることがわかった。
この研究は、提案されたVisual Roomの議論に対して実証的な根拠を提供し、MLMの新たな評価パラダイムを提供する。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - Seeing Sarcasm Through Different Eyes: Analyzing Multimodal Sarcasm Perception in Large Vision-Language Models [18.15726815994039]
本稿では,既存のマルチモーダルサルカムデータセット上で,システマティックに設計されたプロンプトを用いた分析フレームワークを提案する。
以上の結果より,LVLMと同一モデル内における顕著な相違が認められた。
これらの結果は、サルカズムの主観性を強調することによってバイナリラベリングパラダイムに挑戦する。
論文 参考訳(メタデータ) (2025-03-15T14:10:25Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding [65.28200190598082]
本稿では、慎重に設計された物理概念理解タスクであるPhysorCoについて要約評価を行う。
我々のタスクは、物理的現象を抽象的に記述するグリッド形式入力の使用によって問題を緩和する。
1)GP-4oを含む最先端のLLM, 40%遅れの遅れ, 2) グリッドタスクで失敗するとオウム, o1 現象が LLM に存在するが, 自然言語で同じ概念を記述し, 認識することができる。
論文 参考訳(メタデータ) (2025-02-13T04:00:03Z) - Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering Incorrectly [44.31985939516153]
MLLM(Multimodal Large Language Models)は、マルチモーダルタスクにおいて顕著な性能を示す。
MLLMは、視覚的内容を理解した場合でも、誤った回答をしばしば生成することを示す。
テキストと視覚的プロンプトを精細化し,デコード中の視覚的コンテンツに焦点を当てることを提案する。
論文 参考訳(メタデータ) (2024-06-15T13:58:26Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。