論文の概要: Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding
- arxiv url: http://arxiv.org/abs/2505.16652v2
- Date: Sat, 07 Jun 2025 18:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.103106
- Title: Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding
- Title(参考訳): 遠視と明視:意図的因果復号によるMLLMの幻覚の軽減
- Authors: Feilong Tang, Chengzhi Liu, Zhongxing Xu, Ming Hu, Zelin Peng, Zhiwei Yang, Jionglong Su, Minquan Lin, Yifan Peng, Xuelian Cheng, Imran Razzak, Zongyuan Ge,
- Abstract要約: 我々は,トークンインタラクションプロセスから直接適切なコンテキスト情報を抽出できると主張している。
復号化戦略における因果推論に着想を得て、因果マスクを活用してマルチモーダルトークン間の情報伝達を確立することを提案する。
FarSightは汎用的なプラグ・アンド・プレイ・デコード方式で,外部トークンからの注意干渉を低減する。
- 参考スコア(独自算出の注目度): 33.33247964758369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have significantly improved performance in visual question answering. However, they often suffer from hallucinations. In this work, hallucinations are categorized into two main types: initial hallucinations and snowball hallucinations. We argue that adequate contextual information can be extracted directly from the token interaction process. Inspired by causal inference in the decoding strategy, we propose to leverage causal masks to establish information propagation between multimodal tokens. The hypothesis is that insufficient interaction between those tokens may lead the model to rely on outlier tokens, overlooking dense and rich contextual cues. Therefore, we propose to intervene in the propagation process by tackling outlier tokens to enhance in-context inference. With this goal, we present FarSight, a versatile plug-and-play decoding strategy to reduce attention interference from outlier tokens merely by optimizing the causal mask. The heart of our method is effective token propagation. We design an attention register structure within the upper triangular matrix of the causal mask, dynamically allocating attention to capture attention diverted to outlier tokens. Moreover, a positional awareness encoding method with a diminishing masking rate is proposed, allowing the model to attend to further preceding tokens, especially for video sequence tasks. With extensive experiments, FarSight demonstrates significant hallucination-mitigating performance across different MLLMs on both image and video benchmarks, proving its effectiveness.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は,視覚的質問応答の性能を著しく向上させた。
しかし、幻覚に悩まされることが多い。
本研究では,幻覚は初期幻覚と雪玉幻覚の2種類に分類される。
我々は,トークンインタラクションプロセスから直接適切なコンテキスト情報を抽出できると主張している。
復号化戦略における因果推論にインスパイアされ,マルチモーダルトークン間の情報伝達を確立するために因果マスクを活用することを提案する。
この仮説は、これらのトークン間の不十分な相互作用は、密集したリッチな文脈的手がかりを見渡すことによって、モデルが外れ値トークンに依存することにつながるかもしれないというものである。
そこで本研究では,外部トークンに対処し,文脈内推論を強化することによって,伝播過程に介入することを提案する。
この目的によりFarSightは,因果マスクを最適化することで,外部トークンからの注意干渉を軽減する汎用的なプラグアンドプレイデコーディング戦略である。
我々の手法の核心は効果的なトークンの伝播である。
因果マスクの上三角行列内にアテンションレジスタ構造を設計し,アテンションを動的にアロケートし,アテンションをオフリートークンに分散させる。
さらに、マスキング率を低下させる位置認識符号化法を提案し、特にビデオシーケンスタスクにおいて、さらに先行するトークンにモデルが参加できるようにする。
大規模な実験により、FarSightは画像とビデオのベンチマークで異なるMLLM間で幻覚軽減性能を示し、その効果を実証した。
関連論文リスト
- Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing [39.969451863788464]
LVLM(Large Vision-Language Models)は、視覚入力を有限のトークン集合に符号化することで、マルチモーダル表現を統一する。
これらのモデルは、まだ存在しないオブジェクトを幻覚させる。
生成中の潜像埋め込みを変更することで、視覚的に欠落したトークンの影響を抑える幻覚緩和法を提案する。
論文 参考訳(メタデータ) (2025-05-24T22:36:15Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.54980913741828]
LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文 参考訳(メタデータ) (2025-03-11T09:35:55Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination [11.845711223575462]
画像トークン上でのLLM(Large Language Model)デコーダの注意分布は,視覚的エンコーダと非常に一致していることがわかった。
我々は,D$ive を$A$ttention $M$echanism of LVLM に変換する新しいトレーニングフリー戦略 DAMRO を提案する。
論文 参考訳(メタデータ) (2024-10-06T15:12:09Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。