論文の概要: Aligning Attention Distribution to Information Flow for Hallucination Mitigation in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.14257v1
- Date: Tue, 20 May 2025 12:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.160088
- Title: Aligning Attention Distribution to Information Flow for Hallucination Mitigation in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける幻覚緩和のための情報フローに対する注意分布の調整
- Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng,
- Abstract要約: セマンティック表現に埋め込まれたコア情報を活用することにより,モデルの視覚的理解を高める。
5種類のLVLMを用いて3つの画像キャプションベンチマークを行い,幻覚の低減効果を実証した。
- 参考スコア(独自算出の注目度): 11.385588803559733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the unidirectional masking mechanism, Decoder-Only models propagate information from left to right. LVLMs (Large Vision-Language Models) follow the same architecture, with visual information gradually integrated into semantic representations during forward propagation. Through systematic analysis, we observe that over 80\% of the visual information is absorbed into the semantic representations. However, the model's attention still predominantly focuses on the visual representations. This misalignment between the attention distribution and the actual information flow undermines the model's visual understanding ability and contributes to hallucinations. To address this issue, we enhance the model's visual understanding by leveraging the core information embedded in semantic representations. Specifically, we identify attention heads that focus on core semantic representations based on their attention distributions. Then, through a two-stage optimization paradigm, we propagate the advantages of these attention heads across the entire model, aligning the attention distribution with the actual information flow. We evaluate our method on three image captioning benchmarks using five different LVLMs, demonstrating its effectiveness in significantly reducing hallucinations. Further experiments reveal a trade-off between reduced hallucinations and richer details. Notably, our method allows for manual adjustment of the model's conservativeness, enabling flexible control to meet diverse real-world requirements. Code will be released once accepted.
- Abstract(参考訳): 一方向マスキング機構のため、デコーダ-オンリーモデルは左から右へ情報を伝達する。
LVLM(Large Vision-Language Models)は同じアーキテクチャに従っており、視覚情報は前方伝播中に意味表現に徐々に統合される。
系統的な分析により,視覚情報の80%以上が意味表現に吸収されていることが明らかとなった。
しかし、モデルが目指すのは、視覚的な表現である。
この注意分布と実際の情報フローのミスアライメントは、モデルの視覚的理解能力を損なうものであり、幻覚に寄与する。
この問題に対処するために、セマンティック表現に埋め込まれたコア情報を活用することにより、モデルの視覚的理解を強化する。
具体的には、注意分布に基づいて、中核的な意味表現に焦点をあてる注意ヘッドを同定する。
そして、2段階最適化のパラダイムにより、これらの注目ヘッドの利点をモデル全体に広め、実際の情報の流れに注意分布を合わせる。
5種類のLVLMを用いて3つの画像キャプションベンチマークを行い,幻覚の低減効果を実証した。
さらなる実験では、幻覚の減少とよりリッチな詳細の間のトレードオフが明らかになった。
特に,本手法はモデルの保守性を手動で調整し,フレキシブルな制御を実世界の多様な要件に適合させることができる。
コードは一度受け入れられるとリリースされる。
関連論文リスト
- Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models [32.24716280370563]
ICTは、異なるレベルの視覚情報に焦点を移すための介入方向を計算する軽量でトレーニング不要な手法である。
少量のデータで強力なパフォーマンスを実現し、さまざまなデータセットやモデルにまたがってうまく一般化する。
論文 参考訳(メタデータ) (2024-11-22T12:22:21Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。