論文の概要: Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering
- arxiv url: http://arxiv.org/abs/2602.06050v1
- Date: Wed, 14 Jan 2026 04:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.661537
- Title: Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering
- Title(参考訳): Relevance-Aware Multi-Context Contrastive Decoding for Retrieval-augmented Visual Question Answering
- Authors: Jongha Kim, Byungoh Ko, Jeehye Na, Jinsung Yoon, Hyunwoo J. Kim,
- Abstract要約: Relevance-aware Multi-Context Contrastive Decoding (RMCD)はRAGの新しい復号法である。
RMCDは、予測された出力を各文脈と組み合わせることで最終的な予測を出力し、各出力はその問題と関連性に基づいて重み付けされる。
実験により、RMCDは複数のLVLMにおいて、他の復号法よりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 37.441396497173265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable capabilities of Large Vision Language Models (LVLMs), they still lack detailed knowledge about specific entities. Retrieval-augmented Generation (RAG) is a widely adopted solution that enhances LVLMs by providing additional contexts from an external Knowledge Base. However, we observe that previous decoding methods for RAG are sub-optimal as they fail to sufficiently leverage multiple relevant contexts and suppress the negative effects of irrelevant contexts. To this end, we propose Relevance-aware Multi-context Contrastive Decoding (RMCD), a novel decoding method for RAG. RMCD outputs a final prediction by combining outputs predicted with each context, where each output is weighted based on its relevance to the question. By doing so, RMCD effectively aggregates useful information from multiple relevant contexts while also counteracting the negative effects of irrelevant ones. Experiments show that RMCD consistently outperforms other decoding methods across multiple LVLMs, achieving the best performance on three knowledge-intensive visual question-answering benchmarks. Also, RMCD can be simply applied by replacing the decoding method of LVLMs without additional training. Analyses also show that RMCD is robust to the retrieval results, consistently performing the best across the weakest to the strongest retrieval results. Code is available at https://github.com/mlvlab/RMCD.
- Abstract(参考訳): LVLM(Large Vision Language Models)の際立った能力にもかかわらず、特定のエンティティに関する詳細な知識はいまだに欠如している。
Retrieval-augmented Generation (RAG)は、外部知識ベースから追加のコンテキストを提供することでLVLMを強化する広く採用されているソリューションである。
しかし,従来のRAGの復号法は,複数のコンテキストを十分に活用できず,無関係なコンテキストの負の効果を抑えられなかったため,準最適であることがわかった。
そこで本研究では,RAGの新しい復号法であるRMCD(Relevance-aware Multi-Context Contrastive Decoding)を提案する。
RMCDは、予測された出力を各文脈と組み合わせることで最終的な予測を出力し、各出力はその問題と関連性に基づいて重み付けされる。
これにより、RMCDは複数の関連するコンテキストから有用な情報を効果的に集約し、無関係なコンテキストのネガティブな影響に対処する。
実験により、RMCDは複数のLVLMで他の復号法より一貫して優れており、3つの知識集約型視覚質問応答ベンチマークで最高の性能を達成していることが示された。
また、RMCDはLVLMの復号法を追加訓練なしで置き換えることによって簡単に適用できる。
また、RMCDは検索結果に対して頑健であり、最弱から最強の検索結果に対して常に最善を尽くしていることを示す。
コードはhttps://github.com/mlvlab/RMCDで入手できる。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Multi-Granularity Guided Fusion-in-Decoder [7.87348193562399]
複数レベルの粒度にまたがる証拠を識別するために,MGFiD(Multi-Granularity Guided Fusion-in-Decoder)を提案する。
MGFiDは、マルチタスク学習に基づいて、文分類でランク付けされた経路を調和させる。
通過プルーニングにおける経路再ランクの結果を再利用することにより、復号効率を向上させる。
論文 参考訳(メタデータ) (2024-04-03T08:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。