Fugu-MT 論文翻訳(概要): DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination

論文の概要: DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination

arxiv url: http://arxiv.org/abs/2410.04514v1
Date: Sun, 6 Oct 2024 15:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 06:56:10.211172
Title: DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination
Title（参考訳）: DAMRO:LVLMの注意機構の解明と幻覚の低減
Authors: Xuan Gong, Tianshi Ming, Xinpeng Wang, Zhihua Wei,
Abstract要約: 画像トークン上でのLLM(Large Language Model)デコーダの注意分布は,視覚的エンコーダと非常に一致していることがわかった。我々は,D$ive を$A$ttention $M$echanism of LVLM に変換する新しいトレーニングフリー戦略 DAMRO を提案する。
参考スコア（独自算出の注目度）: 11.845711223575462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the great success of Large Vision-Language Models (LVLMs), they inevitably suffer from hallucination. As we know, both the visual encoder and the Large Language Model (LLM) decoder in LVLMs are Transformer-based, allowing the model to extract visual information and generate text outputs via attention mechanisms. We find that the attention distribution of LLM decoder on image tokens is highly consistent with the visual encoder and both distributions tend to focus on particular background tokens rather than the referred objects in the image. We attribute to the unexpected attention distribution to an inherent flaw in the visual encoder itself, which misguides LLMs to over emphasize the redundant information and generate object hallucination. To address the issue, we propose DAMRO, a novel training-free strategy that $D$ive into $A$ttention $M$echanism of LVLM to $R$educe $O$bject Hallucination. Specifically, our approach employs classification token (CLS) of ViT to filter out high-attention outlier tokens scattered in the background and then eliminate their influence during decoding stage. We evaluate our method on LVLMs including LLaVA-1.5, LLaVA-NeXT and InstructBLIP, using various benchmarks such as POPE, CHAIR, MME and GPT-4V Aided Evaluation. The results demonstrate that our approach significantly reduces the impact of these outlier tokens, thus effectively alleviating the hallucination of LVLMs. The code of our method will be released soon.
Abstract（参考訳）: LVLM(Large Vision-Language Models)の成功にもかかわらず、彼らは必然的に幻覚に苦しんでいる。我々が知っているように、LVLMのビジュアルエンコーダとLarge Language Model (LLM)デコーダはトランスフォーマーベースであり、モデルが視覚情報を抽出し、注意機構を介してテキスト出力を生成することができる。画像トークン上のLLMデコーダの注意分布は視覚エンコーダと非常に一致しており、どちらの分布も画像中の参照対象よりも特定の背景トークンに注目する傾向にある。我々は、視覚エンコーダ自体に固有の欠陥があり、LCMが冗長な情報を過度に強調し、オブジェクト幻覚を生成することを誤解しているため、予期せぬ注意分布を考慮に入れている。この問題に対処するために、D$iveを$A$ttention $M$echanism of LVLM to $R$educe $O$bject Hallucination(英語版)に変換する新しいトレーニングフリー戦略であるDAMROを提案する。具体的には、ViTの分類トークン(CLS)を用いて、背景に散在する高アテンションな外れ値トークンをフィルタリングし、復号段階での影響を除去する。 LLaVA-1.5, LLaVA-NeXT, InstructBLIPなどのLVLMに対して, POPE, CHAIR, MME, GPT-4V Aided Evaluation などのベンチマークを用いて評価を行った。以上の結果から,本手法は,これらの異常トークンの影響を著しく低減し,LVLMの幻覚を効果的に緩和することを示した。私たちのメソッドのコードはまもなくリリースされます。

関連論文リスト

Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。 LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2025-08-04T13:40:59Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。 tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文参考訳（メタデータ） (2025-02-02T08:34:57Z)
PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。 textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2025-01-21T15:22:31Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。 RoPEは、広く採用されている位置依存モデリング設計である。簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文参考訳（メタデータ） (2024-10-21T11:54:53Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文参考訳（メタデータ） (2024-08-06T08:10:34Z)
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。幻覚問題として知られる問題は、重大なボトルネックとして浮上している。自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文参考訳（メタデータ） (2024-08-04T13:50:17Z)
Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。このLVLMの不均衡は幻覚の原因となる可能性がある。本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-31T17:46:57Z)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳（メタデータ） (2024-05-29T15:28:42Z)
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。 MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文参考訳（メタデータ） (2023-11-29T18:57:07Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。