論文の概要: I Spy With My Model's Eye: Visual Search as a Behavioural Test for MLLMs
- arxiv url: http://arxiv.org/abs/2510.19678v1
- Date: Wed, 22 Oct 2025 15:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.026789
- Title: I Spy With My Model's Eye: Visual Search as a Behavioural Test for MLLMs
- Title(参考訳): MLLMのビヘイビアテストとしてのビジュアル検索
- Authors: John Burden, Jonathan Prunty, Ben Slater, Matthieu Tehenan, Greg Davis, Lucy Cheke,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて高い性能を達成するが、その視覚処理は不透明である。
従来の視覚探索のパラダイムを応用して,MLLMの視覚的特徴が乱れのセットサイズとは無関係に検出されるような,ポップアウト効果を示すかどうかを検証した。
高度なMLLMは、色や大きさに基づく解離性(単一特徴)探索や、接続性(複数特徴)探索の容量制限において人間的なポップアウト効果を示す。
- 参考スコア(独自算出の注目度): 3.5266549480163047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) achieve strong performance on vision-language tasks, yet their visual processing is opaque. Most black-box evaluations measure task accuracy, but reveal little about underlying mechanisms. Drawing on cognitive psychology, we adapt classic visual search paradigms -- originally developed to study human perception -- to test whether MLLMs exhibit the ``pop-out'' effect, where salient visual features are detected independently of distractor set size. Using controlled experiments targeting colour, size and lighting features, we find that advanced MLLMs exhibit human-like pop-out effects in colour or size-based disjunctive (single feature) search, as well as capacity limits for conjunctive (multiple feature) search. We also find evidence to suggest that MLLMs, like humans, incorporate natural scene priors such as lighting direction into object representations. We reinforce our findings using targeted fine-tuning and mechanistic interpretability analyses. Our work shows how visual search can serve as a cognitively grounded diagnostic tool for evaluating perceptual capabilities in MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて高い性能を達成するが、その視覚処理は不透明である。
ほとんどのブラックボックス評価はタスクの精度を測るが、基礎となるメカニズムについてはほとんど明らかにしない。
認知心理学に基づいて、従来の視覚探索パラダイム(もともと人間の知覚を研究するために開発された)を適用し、MLLMが 'pop-out' 効果を示すかどうかをテストする。
色, 大きさ, 照明特徴を対象とする制御実験により, 高度なMLLMは, 色や大きさに基づく解離(単一特徴)探索, および接続性(複数特徴)探索の能力限界において, 人間のようなポップアウト効果を示すことがわかった。
また、MLLMが人間のように、光の方向などの自然のシーンを物体表現に取り入れていることを示す証拠も発見されている。
対象とする微調整および機械的解釈可能性分析を用いて,本研究の成果を補強する。
我々の研究は、視覚検索がMLLMの知覚能力を評価するための認知的基盤の診断ツールとしてどのように機能するかを示す。
関連論文リスト
- Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。
本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文 参考訳(メタデータ) (2025-04-16T22:14:27Z) - Evaluating Graphical Perception with Multimodal LLMs [2.090547583226381]
マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
論文 参考訳(メタデータ) (2025-04-05T16:14:08Z) - MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs [11.532430076027554]
我々はMLLMが画像に関する質問に答える際に、小さな視覚的詳細を大きなものと同じくらい効果的に知覚できるかどうかを検討する。
本研究では,MLLM自体の内部知識を活用する学習自由な視覚介入手法を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:54:40Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。