論文の概要: See Fair, Speak Truth: Equitable Attention Improves Grounding and Reduces Hallucination in Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2604.09749v1
- Date: Fri, 10 Apr 2026 11:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.654188
- Title: See Fair, Speak Truth: Equitable Attention Improves Grounding and Reduces Hallucination in Vision-Language Alignment
- Title(参考訳): 言葉の真理を見よ: 平等な注意は接地を改善し、視覚言語アライメントにおける幻覚を減少させる
- Authors: Mohammad Anas Azeez, Ankan Deria, Zohaib Hasan Siddiqui, Adinath Madhavrao Dukre, Rafiq Ali, Sara Atito, Yutong Xie, Imran Razzak,
- Abstract要約: MLLM(Multimodal large language model)は視覚入力を欠いたオブジェクトを幻覚させる。
DOP-OBCは、公平な注意の原則に基づいて構築された、トレーニング不要でアーキテクチャに依存しないデコーディング戦略である。
- 参考スコア(独自算出の注目度): 16.616065291567445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) frequently hallucinate objects that are absent from the visual input, often because attention during decoding is disproportionately drawn to visually dominant or frequently occurring content. We observe that this inequity in attention allocation is a root cause of object hallucination: when rare, small, or contextually peripheral objects receive insufficient attention, the model fails to ground its generation in the full visual scene. We argue that every object in an image, regardless of its size, frequency or visual salience, deserves equal representational opportunity during decoding. To this end, we propose DOP-OBC, a training-free and architecture-agnostic decoding strategy built on the principle of equitable attention. Two complementary object-aware signals work in tandem: a Dominant Object Penalty (DOP) that softly suppresses attention over-concentration on visually dominant regions, and an Outlier Boost Coefficient (OBC) that amplifies attention toward rare yet confidently detected objects. These signals are injected as per-row logit modulations within the causal attention mask, requiring no weight updates and preserving autoregressive decoding properties. Extensive experiments across image and video MLLMs demonstrate consistent reductions in object hallucination on CHAIR and POPE benchmarks, alongside improvements in GPT-4o assessed captioning quality across correctness, consistency, detail, context and temporal dimensions. DOP-OBC establishes that fairness in attention allocation is not merely a design principle but a practical and effective path toward more faithful multimodal generation.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、しばしば視覚的な入力から欠落しているオブジェクトを幻覚させる。
注意割当の不平等が物体幻覚の根本原因であることが観察された。希少、小、文脈的に周囲の物体が十分に注意を払っていない場合、モデルはその生成を完全な視覚的シーンに固定することができない。
画像中のすべてのオブジェクトは、そのサイズ、周波数、または視覚的サリエンスにかかわらず、デコード中に同じ表現機会を持つべきだ、と我々は主張する。
この目的のために,同値注意の原理に基づいて構築されたトレーニングフリーでアーキテクチャに依存しない復号化戦略であるDOP-OBCを提案する。
2つの補完的なオブジェクト認識信号は、視覚的に支配的な領域における注意の過度な集中をソフトに抑制するDOP(Dominant Object Penalty)と、まれながら確実に検出されたオブジェクトに対する注意を増幅する Outlier Boost Coefficient(OBC)である。
これらの信号は、因果注意マスク内のロー対数変調として注入され、重み更新を必要とせず、自己回帰的復号性を保持する。
画像およびビデオMLLMの広範な実験は、CHAIRとPOPEベンチマークにおける物体幻覚の連続的な減少を示し、GPT-4oの改良は、正しさ、一貫性、詳細、文脈、時間次元のキャプション品質を評価した。
DOP-OBCは、注意割当の公平性は単なる設計原則ではなく、より忠実なマルチモーダル生成への実践的で効果的な道である、と断定する。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation [50.51650162235191]
本稿では,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る訓練のない慣性認識型視覚興奮(IVE)法を提案する。
IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効である。
論文 参考訳(メタデータ) (2026-04-02T12:51:07Z) - SAGE: Sink-Aware Grounded Decoding for Multimodal Hallucination Mitigation [33.381194425912234]
視覚言語モデル(VLM)はしばしば幻覚に悩まされ、視覚入力と矛盾するコンテンツを生成する。
SAGE, Sink-Aware Grounded Decoding frameworkは, 生成中の自己注意を動的に調節することで幻覚を緩和する。
本手法は,MSCOCOでは10.65%,AMBERでは7.19%の相対的改善を実現している。
論文 参考訳(メタデータ) (2026-03-29T22:52:03Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.036659182106806]
本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。
我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文 参考訳(メタデータ) (2025-08-05T14:05:15Z) - Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration [2.19036693868242]
大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。
2つの重要なバイアスをターゲットとして、この問題に対処するために、信頼性意識(CAAC)フレームワークを導入します。
CAACでは、視覚トークン間の注意のバランスをとるためにVTC(Visual-Token)と、視覚的接地を強化するためにAdaptive Attention Re-Scaling(Adaptive Re-Scaling)という2段階のアプローチを採用している。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。