論文の概要: Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions
- arxiv url: http://arxiv.org/abs/2601.22150v1
- Date: Thu, 29 Jan 2026 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.106628
- Title: Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions
- Title(参考訳): VLMは知覚的か再コール的か? 古典的な視覚的錯覚を伴う視覚的知覚と記憶
- Authors: Xiaoxiao Sun, Mingyang Li, Kun yuan, Min Woo Sun, Mark Endo, Shengguang Wu, Changlin Li, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy,
- Abstract要約: VLM(Large Vision-Language Models)は、しばしばオリジナルの画像で古典的な視覚錯覚に「正しく」答えるが、錯覚因子が逆転すると同じ反応を持続する。
VLMは視覚的変化を認識するのか、単に記憶されたパターンを思い出すだけなのか?
本稿では,段階的な摂動と一致した視覚制御を備えた制御可能なビジュアルイリュージョンフレームワークであるVI-Probeを紹介する。
- 参考スコア(独自算出の注目度): 38.42074629749954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (VLMs) often answer classic visual illusions "correctly" on original images, yet persist with the same responses when illusion factors are inverted, even though the visual change is obvious to humans. This raises a fundamental question: do VLMs perceive visual changes or merely recall memorized patterns? While several studies have noted this phenomenon, the underlying causes remain unclear. To move from observations to systematic understanding, this paper introduces VI-Probe, a controllable visual-illusion framework with graded perturbations and matched visual controls (without illusion inducer) that disentangles visually grounded perception from language-driven recall. Unlike prior work that focuses on averaged accuracy, we measure stability and sensitivity using Polarity-Flip Consistency, Template Fixation Index, and an illusion multiplier normalized against matched controls. Experiments across different families reveal that response persistence arises from heterogeneous causes rather than a single mechanism. For instance, GPT-5 exhibits memory override, Claude-Opus-4.1 shows perception-memory competition, while Qwen variants suggest visual-processing limits. Our findings challenge single-cause views and motivate probing-based evaluation that measures both knowledge and sensitivity to controlled visual change. Data and code are available at https://sites.google.com/view/vi-probe/.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、しばしばオリジナルの画像で古典的な視覚錯覚に「正しく」答えるが、視覚的な変化が人間に明らかであるにもかかわらず、錯覚因子が反転した場合に同じ反応を持続する。
VLMは視覚的変化を認識するのか、単に記憶されたパターンを思い出すだけなのか?
いくつかの研究でこの現象が指摘されているが、根本原因は不明なままである。
観察から体系的理解へ移行するために,第6報(VI-Probe)を紹介した。このフレームワークは,段階的な摂動と(錯覚的インデューサを伴わない)視覚制御を備えた,言語によるリコールから視覚的接地知覚を遠ざける,制御可能な視覚的イリュージョンフレームワークである。
平均精度に焦点をあてた以前の研究とは違って、ポーラリティ・フリップ整合性、テンプレート固定指数、および一致した制御に対して正規化されたイリュージョン乗算器を用いて安定性と感度を測定する。
異なるファミリーでの実験では、応答の持続性は単一のメカニズムではなく、不均一な原因から生じることが示されている。
例えば、GPT-5はメモリオーバーライドを示し、Claude-Opus-4.1は知覚記憶の競合を示す。
本研究は,視覚変化に対する知識と感度の両面を測る単一視点と探索に基づく評価に挑戦する。
データとコードはhttps://sites.google.com/view/vi-probe/.comで入手できる。
関連論文リスト
- Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - Do Large Vision-Language Models Distinguish between the Actual and Apparent Features of Illusions? [12.157632635072435]
人間は視覚錯覚に敏感で、感覚や認知の過程を研究する貴重な道具として機能する。
大規模視覚言語モデル(LVLM)のような機械が視覚錯覚に類似した感受性を示すかどうかの研究が始まっている。
論文 参考訳(メタデータ) (2025-06-06T05:47:50Z) - IllusionBench+: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。