論文の概要: System-Mediated Attention Imbalances Make Vision-Language Models Say Yes
- arxiv url: http://arxiv.org/abs/2601.12430v1
- Date: Sun, 18 Jan 2026 14:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.625936
- Title: System-Mediated Attention Imbalances Make Vision-Language Models Say Yes
- Title(参考訳): システム経由の注意不均衡は、ビジョンランゲージモデルに「はい」
- Authors: Tsan Tsai Chan, Varsha Suresh, Anisha Saha, Michael Hahn, Vera Demberg,
- Abstract要約: 視覚言語モデル(VLM)の幻覚は、一般に、入力モダリティ(システム、画像、テキスト)間での注意の非バランスな割り当てと結びついている。
本研究では,これらの不均衡を機能的に冗長なシステム重みに起因した,より包括的でシステム経由の会計評価を行う。
画像およびテキスト入力に対するシステムモダリティからの注意を因果的に再分配することは、このバイアスを著しく抑制し、しばしば既存のアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.24790310403934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language model (VLM) hallucination is commonly linked to imbalanced allocation of attention across input modalities: system, image and text. However, existing mitigation strategies tend towards an image-centric interpretation of these imbalances, often prioritising increased image attention while giving less consideration to the roles of the other modalities. In this study, we evaluate a more holistic, system-mediated account, which attributes these imbalances to functionally redundant system weights that reduce attention to image and textual inputs. We show that this framework offers a useful empirical perspective on the yes-bias, a common form of hallucination in which VLMs indiscriminately respond 'yes'. Causally redistributing attention from the system modality to image and textual inputs substantially suppresses this bias, often outperforming existing approaches. We further present evidence suggesting that system-mediated attention imbalances contribute to the yes-bias by encouraging a default reliance on coarse input representations, which are effective for some tasks but ill-suited to others. Taken together, these findings firmly establish system attention as a key factor in VLM hallucination and highlight its potential as a lever for mitigation.
- Abstract(参考訳): 視覚言語モデル(VLM)の幻覚は、一般に、入力モダリティ(システム、画像、テキスト)間での注意の非バランスな割り当てと結びついている。
しかし、既存の緩和戦略は、これらの不均衡をイメージ中心で解釈する傾向にあり、しばしば画像の注意を高め、他のモダリティの役割を軽視する傾向にある。
本研究では,これらの不均衡を機能的に冗長なシステム重みとみなし,画像やテキスト入力への注意を減らし,より包括的でシステム経由のアカウントを評価する。
この枠組みは, VLM が無差別に "yes" に応答する幻覚の共通形態である yes-bias に対して有用な経験的視点を提供することを示す。
システムモダリティから画像およびテキスト入力への注意を因果的に再分配することは、このバイアスを著しく抑制し、しばしば既存のアプローチよりも優れている。
さらに,システムによる注意の不均衡が,粗い入力表現へのデフォルト依存を促すことによって,Yes-biasに寄与することを示す証拠を提示する。
これらの知見は, VLM幻覚の重要な要因としてシステム・アテンションをしっかりと確立し, 緩和のレバーとしての可能性を強調した。
関連論文リスト
- RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs [57.01486941224062]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めている。
画像内の異なる場所に同じキー情報を置くと、モデルがどのように反応するかに焦点を当てる。
本研究では,すべての画像トークンに同一位置埋め込みを割り当てるシンプルかつ効果的な機構であるBaPAを導入する。
論文 参考訳(メタデータ) (2025-09-26T07:07:03Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされることが多い。
我々は,目隠しのメカニズムを変更せずに,目隠しトークンの影響を再検討するテストタイムアプローチである注意覚(AvisC)を提案する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。