Fugu-MT 論文翻訳(概要): Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination

論文の概要: Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination

arxiv url: http://arxiv.org/abs/2605.15864v1
Date: Fri, 15 May 2026 11:31:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.265974
Title: Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination
Title（参考訳）: VLMは見えているのか、それとも単に言っているのか?
Authors: Chufan Shi, Cheng Yang, Yaokang Wu, Linhao Jin, Bo Shui, Taylor Berg-Kirkpatrick, Xuezhe Ma,
Abstract要約: VLM(Vision-Language Models)は、しばしば推論中に「図をもう一度確認する」といった自己表現的なステートメントを生成する。このようなステートメントは、真の視覚的再検査を引き起こすのか、それとも単にテキストパターンを学んだだけなのか? 我々は、イメージスワップ探索フレームワークであるVisualSwapを通してこれを調査する。
参考スコア（独自算出の注目度）: 39.713386491199884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) often produce self-reflective statements like "let me check the figure again" during reasoning. Do such statements trigger genuine visual re-examination, or are they merely learned textual patterns? We investigate this via VisualSwap, an image-swap probing framework: after a model reasons over an image, we replace it with a visually similar but semantically different one and test whether the model notices. We introduce VS-Bench, 800 image pairs curated from MathVista, MathVerse, MathVision, and MMMU-Pro. Experiments on Qwen3-VL, Kimi-VL, and ERNIE-VL reveal a striking failure: models overwhelmingly miss the swap, with accuracy dropping by up to 60%. Counterintuitively, thinking models are nearly 3x more vulnerable than their instructed counterparts, and scaling offers no mitigation. Multi-turn user instructions restore visual grounding, but self-generated reflective statements during continuous generation do not. Attention analysis explains why: user instructions substantially elevate attention to visual tokens, whereas self-reflection does not. Current VLMs tend to say rather than actually see when claiming to perform visual re-examination. Our code and dataset are available at the project page: https://visualswap.github.io
Abstract（参考訳）: VLM(Vision-Language Models)は、しばしば推論中に「図をもう一度確認する」といった自己表現的なステートメントを生成する。このようなステートメントは、真の視覚的再検査を引き起こすのか、それとも単にテキストパターンを学んだだけなのか? イメージ上のモデル理由の後に、視覚的に類似しているが意味的に異なるものに置き換えられ、モデルが気付くかどうかをテストする。我々は、MathVista、MathVerse、MathVision、MMMU-Proの800イメージ対であるVS-Benchを紹介する。 Qwen3-VL、Kim-VL、ERNIE-VLの実験では、スワップを圧倒的に見逃し、精度を最大60%低下させた。反対に、思考モデルは指示されたモデルよりも約3倍脆弱であり、スケーリングは緩和を提供しない。マルチターンユーザ命令は、視覚的なグラウンドを復元するが、連続生成時の自己生成の反射文は発生しない。ユーザの指示が視覚トークンへの注意を著しく高めるのに対して、自己回帰はそうではない。現在のVLMは、視覚的再検査を行うという主張を実際に見るのではなく、言う傾向がある。私たちのコードとデータセットはプロジェクトのページで公開されています。

関連論文リスト

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文参考訳（メタデータ） (2026-03-03T03:18:31Z)
BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文参考訳（メタデータ） (2025-10-10T13:14:13Z)
Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文参考訳（メタデータ） (2025-08-27T08:01:03Z)
VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。非局所的な視覚的推論のための視覚言語モデルの能力を評価する。その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-07-04T23:15:52Z)
v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文参考訳（メタデータ） (2025-05-24T19:30:47Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。近年の研究では、VLMは幻覚に弱いことが示されている。我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文参考訳（メタデータ） (2024-07-18T12:11:12Z)
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。 HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文参考訳（メタデータ） (2023-10-23T04:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。