論文の概要: Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.18556v1
- Date: Mon, 24 Mar 2025 11:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:04.099177
- Title: Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける幻覚の緩和のための指示適応型視覚注意
- Authors: Bin Li, Dehong Gao, Yeyuan Wang, Linbo Jin, Shanqing Yu, Xiaoyan Cai, Libin Yang,
- Abstract要約: LVLM(Large Vision-Language Model)は、画像を記述する際にも幻覚に悩まされ、存在しないオブジェクトを含む回答を生成する。
これらのモデルは、疑問に答えるために重要な情報を含まない無関係な画像トークンに過度に焦点をあてる傾向があることが報告されている。
本稿では,2つの異なる指示の下での注意重みの変化を比較することで,無関係なトークンを識別する命令適応型視覚注意(IAVA)アプローチを提案する。
- 参考スコア(独自算出の注目度): 14.739801223002262
- License:
- Abstract: Despite the significant success of Large Vision-Language models(LVLMs), these models still suffer hallucinations when describing images, generating answers that include non-existent objects. It is reported that these models tend to over-focus on certain irrelevant image tokens that do not contain critical information for answering the question and distort the output. To address this, we propose an Instruction-Aligned Visual Attention(IAVA) approach, which identifies irrelevant tokens by comparing changes in attention weights under two different instructions. By applying contrastive decoding, we dynamically adjust the logits generated from original image tokens and irrelevant image tokens, reducing the model's over-attention to irrelevant information. The experimental results demonstrate that IAVA consistently outperforms existing decoding techniques on benchmarks such as MME, POPE, and TextVQA in mitigating object hallucinations. Our IAVA approach is available online at https://github.com/Lee-lab558/IAVA.
- Abstract(参考訳): LVLM(Large Vision-Language Model)の成功にもかかわらず、これらのモデルは画像を記述する際にも幻覚に悩まされ、存在しないオブジェクトを含む回答を生成する。
これらのモデルは、疑問に答え、出力を歪ませるために重要な情報を含んでいない、特定の無関係な画像トークンに過度に焦点をあてる傾向があることが報告されている。
そこで我々は,2つの異なる指示の下での注意重みの変化を比較することで,無関係なトークンを識別する,命令適応型視覚注意(IAVA)アプローチを提案する。
コントラストデコーディングを適用することで、元の画像トークンと無関係画像トークンから生成されたロジットを動的に調整し、無関係情報に対するモデルの過度な注意を減らす。
実験の結果,IAVA は MME や POPE , TextVQA などのベンチマークで既存の復号法を常に上回り,物体の幻覚を緩和することを示した。
IAVAのアプローチはhttps://github.com/Lee-lab558/IAVA.comで公開されています。
関連論文リスト
- Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。
D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。
KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。
以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-11-13T20:50:04Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
盲目トークンと呼ばれるいくつかの画像トークンへの過剰な注意は、視覚オブジェクトのきめ細かい理解を必要とするタスクにおいて幻覚反応をもたらす。
注意重みの低いトークンは、しばしば、ニュアンスオブジェクトの詳細を特定するのに不可欠な情報を持っている。
盲目トークンの過剰エンハンシスに対処するために,AVC(Attentional Vision)と呼ばれる手法を導入する。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。