論文の概要: To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs
- arxiv url: http://arxiv.org/abs/2603.18373v1
- Date: Thu, 19 Mar 2026 00:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.890003
- Title: To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs
- Title(参考訳): 好きなものを見る:VLMで視力と分断された信念を明らかにする
- Authors: Rui Hong, Shuxue Quan,
- Abstract要約: Tri-Layer Diagnostic Frameworkは、潜在異常検出、ビジュアル必要スコア、コンペティションスコアという3つのメトリクスを通じて幻覚ソースをアンハングルする。
我々の分類では、69.6%のサンプルが視覚的シコファンシーを示しており、モデルは視覚異常を検知するが、ユーザーの期待を満足させるために幻覚を与える。
- 参考スコア(独自算出の注目度): 1.9349092719498848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When VLMs answer correctly, do they genuinely rely on visual information or exploit language shortcuts? We introduce the Tri-Layer Diagnostic Framework, which disentangles hallucination sources via three metrics: Latent Anomaly Detection (perceptual awareness), Visual Necessity Score (visual dependency, measured via KL divergence), and Competition Score (conflict between visual grounding and instruction following). Using counterfactual interventions (blind, noise, and conflict images) across 7 VLMs and 7,000 model-sample pairs, our taxonomy reveals that 69.6% of samples exhibit Visual Sycophancy--models detect visual anomalies but hallucinate to satisfy user expectations--while zero samples show Robust Refusal, indicating alignment training has systematically suppressed truthful uncertainty acknowledgment. A scaling analysis (Qwen2.5-VL 7B to 72B) shows larger models reduce Language Shortcuts but amplify Visual Sycophancy, demonstrating scale alone cannot resolve the grounding problem. Diagnostic scores further enable a post-hoc selective prediction strategy achieving up to +9.5pp accuracy at 50% coverage with no additional training cost.
- Abstract(参考訳): VLMが正しく答えると、それらは本当に視覚情報や言語ショートカットの活用に依存しているのだろうか?
本稿では,視覚的異常検出(知覚的認識),視覚的必要度スコア(視覚的依存,KL偏差による測定),コンペティションスコア(視覚的接地と指示の相違)という3つの指標を用いて幻覚源をアンハングリングするTri-Layer診断フレームワークを紹介する。
7個のVLMと7000個のモデルサンプルの対向的介入(ブラインド、ノイズ、コンフリクト画像)を用いて、我々の分類では、69.6%のサンプルが視覚的シコファンシー--モデルが視覚異常を検知するが、ユーザの期待を満足させる幻覚を呈する。
スケール分析(Qwen2.5-VL 7Bから72B)では、より大きなモデルでは言語ショートカットが減少するが、視覚的シクロファンシーを増幅する。
診断スコアはさらに、追加のトレーニングコストを伴わずに、50%のカバレッジで+9.5ppの精度を達成できるポストホック選択予測戦略を可能にする。
関連論文リスト
- HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token [4.2940165358265086]
幻覚は視覚言語モデル(VLM)にとって永続的な課題である。
モデルの内部表現を1つの前方通過で探索することにより,トークンが発生する前に幻覚リスクを予測できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-03-05T18:36:31Z) - When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models [0.5461938536945722]
非顔オブジェクトにおける顔の知覚である顔パリドリアは、この行動の制御されたプローブを提供する。
本研究では,顔パレドリア画像における検出,局所化,不確実性,偏見,難易度,感情を解析する表現レベル診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T12:33:36Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。