論文の概要: When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs
- arxiv url: http://arxiv.org/abs/2602.00344v1
- Date: Fri, 30 Jan 2026 21:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.127438
- Title: When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs
- Title(参考訳): RAG Hurts:retrieval-augmented LVLMにおける注意障害の診断と緩和
- Authors: Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh, Yao Nie, Xiaoxiao Li,
- Abstract要約: この研究は、以前の研究で見過ごされた、明確な障害モードを特定している。
この問題を緩和するために、文脈統合から視覚的接地を分離する訓練不要の介入であるMAD-RAGを提案する。
OK-VQA、E-VQA、InfoSeekの大規模な実験は、MAD-RAGが既存のベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 33.23214854149651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Retrieval-Augmented Generation (RAG) is one of the dominant paradigms for enhancing Large Vision-Language Models (LVLMs) on knowledge-based VQA tasks, recent work attributes RAG failures to insufficient attention towards the retrieved context, proposing to reduce the attention allocated to image tokens. In this work, we identify a distinct failure mode that previous study overlooked: Attention Distraction (AD). When the retrieved context is sufficient (highly relevant or including the correct answer), the retrieved text suppresses the visual attention globally, and the attention on image tokens shifts away from question-relevant regions. This leads to failures on questions the model could originally answer correctly without the retrieved text. To mitigate this issue, we propose MAD-RAG, a training-free intervention that decouples visual grounding from context integration through a dual-question formulation, combined with attention mixing to preserve image-conditioned evidence. Extensive experiments on OK-VQA, E-VQA, and InfoSeek demonstrate that MAD-RAG consistently outperforms existing baselines across different model families, yielding absolute gains of up to 4.76%, 9.20%, and 6.18% over the vanilla RAG baseline. Notably, MAD-RAG rectifies up to 74.68% of failure cases with negligible computational overhead.
- Abstract(参考訳): Retrieval-Augmented Generation(RAG)は、知識に基づくVQAタスクにおけるLVLM(Large Vision-Language Models)の強化のための主要なパラダイムの1つであるが、最近の作業属性RAGは、取得したコンテキストに対して十分な注意を払わず、画像トークンに割り当てられた注意を減らすことを提案している。
本研究では,前回の調査で見過ごされた,意図的障害モード(AD)を特定した。
検索されたコンテキストが十分であれば(非常に関連性が高い、あるいは正しい回答を含む)、検索されたテキストは、世界中の視覚的注意を抑え、画像トークンへの注意は、質問関連領域から遠ざかる。
これは、モデルが最初に検索したテキストなしで正解できる質問で失敗につながる。
この問題を緩和するために,2次元探索定式化による文脈統合から視覚的接地を分離する学習自由な介入であるMAD-RAGを提案する。
OK-VQA、E-VQA、InfoSeekの大規模な実験では、MAD-RAGは様々なモデルファミリーで既存のベースラインを一貫して上回り、バニラRAGベースラインよりも4.76%、9.20%、および6.18%の絶対的なゲインを得ることを示した。
特に、MAD-RAGは74.68%の障害を、無視できる計算オーバーヘッドで修正する。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文 参考訳(メタデータ) (2025-10-26T23:19:28Z) - VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation [9.53758114948332]
本稿では,RAGシステムに対する注意誘導型コンテキストプルーニング手法であるAttentionRAGを提案する。
AttentionRAGの中核となる考え方は、RAGクエリを次世代の予測パラダイムに再構成する、注意集中メカニズムにある。
LongBenchとBabilongベンチマークの実験では、AttentionRAGは最大6.3$times$コンテキスト圧縮を達成し、LLMLinguaのメソッドはキーメトリックで約10%上回っている。
論文 参考訳(メタデータ) (2025-03-13T08:22:28Z) - Answer Questions with Right Image Regions: A Visual Attention
Regularization Approach [46.55924742590242]
本稿では,視覚質問応答(VQA)における視覚的グラウンドニングを改善するために,新しい視覚的注意規則化手法であるAttRegを提案する。
AttRegは、バックボーンモデルによって予期せず無視される質問応答に不可欠なイメージ領域を特定する。
VQA-CP v2ベンチマークデータセットの絶対的なパフォーマンス向上は6.93%である。
論文 参考訳(メタデータ) (2021-02-03T07:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。