論文の概要: MEG-RAG: Quantifying Multi-modal Evidence Grounding for Evidence Selection in RAG
- arxiv url: http://arxiv.org/abs/2604.24564v2
- Date: Thu, 30 Apr 2026 01:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.646564
- Title: MEG-RAG: Quantifying Multi-modal Evidence Grounding for Evidence Selection in RAG
- Title(参考訳): MEG-RAG:RAGにおけるエビデンス選択のためのマルチモーダルエビデンスグラウンドの定量化
- Authors: Xihang Wang, Zihan Wang, Chengkai Huang, Quan Z. Sheng, Lina Yao,
- Abstract要約: MRAG(Multimodal Retrieval-Augmented Generation)は、MLLM(Multimodal Large Language Models)の重要な制限に対処する。
得られた証拠の寄与を定量化する意味認識尺度であるMulti-modal Evidence Grounding (MEG)を提案する。
MEG-RAGはマルチモーダル・リランカを訓練し,得られた証拠を基底真実のセマンティックアンカーと整合させるフレームワークである。
- 参考スコア(独自算出の注目度): 29.065833225528127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Retrieval-Augmented Generation (MRAG) addresses key limitations of Multimodal Large Language Models (MLLMs), such as hallucination and outdated knowledge. However, current MRAG systems struggle to distinguish whether retrieved multimodal data truly supports the semantic core of an answer or merely provides superficial relevance. Existing metrics often rely on heuristic position-based confidence, which fails to capture the informational density of multimodal entities. To address this, we propose Multi-modal Evidence Grounding (MEG), a semantic-aware metric that quantifies the contribution of retrieved evidence. Unlike standard confidence measures, MEG utilizes Semantic Certainty Anchoring, focusing on high-IDF information-bearing tokens that better capture the semantic core of the answer. Building on MEG, we introduce MEG-RAG, a framework that trains a multimodal reranker to align retrieved evidence with the semantic anchors of the ground truth. By prioritizing high-value content based on semantic grounding rather than token probability distributions, MEG-RAG improves the accuracy and multimodal consistency of generated outputs. Extensive experiments on the M$^2$RAG benchmark show that MEG-RAG consistently outperforms strong baselines and demonstrates robust generalization across different teacher models.
- Abstract(参考訳): MRAG(Multimodal Retrieval-Augmented Generation)は、幻覚や古い知識など、MLLM(Multimodal Large Language Models)の重要な制限に対処する。
しかし、現在のMRAGシステムは、検索したマルチモーダルデータが回答のセマンティックコアを本当にサポートしているか、あるいは単に表面的関連性を提供するのかを区別するのに苦労している。
既存のメトリクスは、しばしばヒューリスティックな位置ベースの信頼に頼り、マルチモーダルエンティティの情報密度を捉えるのに失敗する。
そこで本研究では, 得られた証拠の寄与を定量化する意味認識尺度であるMulti-modal Evidence Grounding (MEG)を提案する。
標準的な信頼度測定とは異なり、MEGはSemantic Certainty Anchoringを使用して、回答のセマンティックコアをよりよくキャプチャするハイIDF情報付加トークンにフォーカスしている。
MEG上に構築されたMEG-RAGは,検索した証拠を基底真実の意味的アンカーと整合させるために,マルチモーダル・リランカを訓練するフレームワークである。
MEG-RAGはトークン確率分布よりもセマンティックグラウンドに基づく高価値コンテンツを優先することにより、生成した出力の精度とマルチモーダル整合性を改善する。
M$^2$RAGベンチマークの大規模な実験により、MEG-RAGは強いベースラインを一貫して上回り、異なる教師モデル間で堅牢な一般化を示す。
関連論文リスト
- MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation [36.73029890123542]
MASS-RAGは、検索増強生成に対するマルチエージェント合成手法である。
これは、証拠の要約、証拠の抽出、回収された文書に対する推論のために異なるエージェントを適用している。
それらの出力を専用の合成段階を通して組み合わせ、最終的な答えを生成する。
論文 参考訳(メタデータ) (2026-04-20T17:00:38Z) - M$^3$KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation [20.170643730917963]
M$3$KG-RAGはマルチホップマルチモーダル知識グラフ強化RAGである。
MMKGからクエリアラインな音声視覚知識を検索する。
推論の深さを改善し、MLLMの忠実さに答える。
論文 参考訳(メタデータ) (2025-12-23T07:54:03Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。