論文の概要: CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG
- arxiv url: http://arxiv.org/abs/2506.02544v2
- Date: Wed, 04 Jun 2025 06:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.543465
- Title: CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG
- Title(参考訳): CoRe-MMRAG:マルチモーダルRAGのためのクロスソース知識調整
- Authors: Yang Tian, Fan Liu, Jingyuan Zhang, Victoria W., Yupeng Hu, Liqiang Nie,
- Abstract要約: マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 53.950029990391066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Retrieval-Augmented Generation (MMRAG) has been introduced to enhance Multimodal Large Language Models by incorporating externally retrieved multimodal knowledge, but it introduces two challenges: Parametric-Retrieved Knowledge Inconsistency (PRKI), where discrepancies between parametric and retrieved knowledge create uncertainty in determining reliability, and Visual-Textual Knowledge Inconsistency (VTKI), where misalignment between visual and textual sources disrupts entity representation. To address these challenges, we propose Cross-source knowledge \textbf{Re}conciliation for Multimodal RAG (CoRe-MMRAG), a novel end-to-end framework that effectively reconciles inconsistencies across knowledge sources. CoRe-MMRAG follows a four-stage pipeline: it first generates an internal response from parametric knowledge, then selects the most relevant multimodal evidence via joint similarity assessment, generates an external response, and finally integrates both to produce a reliable answer. Additionally, a specialized training paradigm enhances knowledge source discrimination, multimodal integration, and unified answer generation. Experiments on KB-VQA benchmarks show that CoRe-MMRAG achieves substantial improvements over baseline methods, achieving 5.6% and 9.3% performance gains on InfoSeek and Encyclopedic-VQA, respectively.
- Abstract(参考訳): マルチモーダル検索・拡張生成(MMRAG)は、外部から取得したマルチモーダル知識を取り入れたマルチモーダル大言語モデルを強化するために導入されたが、パラメトリック検索・知識不整合(PRKI)、パラメトリック検索・知識の不整合(PRKI)、ビジュアルテキスト知識不整合(VTKI)の2つの課題が導入されている。
これらの課題に対処するため、我々は、知識ソース間の矛盾を効果的に解決する新しいエンドツーエンドフレームワークであるMultimodal RAG (CoRe-MMRAG) のためのクロスソース知識 \textbf{Re} Conciliationを提案する。
CoRe-MMRAGは4段階のパイプラインに従い、まずパラメトリック知識から内部応答を生成し、次いで関節類似性評価によって最も関連性の高いマルチモーダルエビデンスを選択し、外部応答を生成し、最終的に両者を統合して信頼性の高い回答を生成する。
さらに、専門的な訓練パラダイムは、知識ソースの識別、マルチモーダル統合、および統合された回答生成を促進する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善され、InfoSeekとEncyclopedic-VQAでそれぞれ5.6%と9.3%のパフォーマンス向上を達成した。
関連論文リスト
- MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Merging Generated and Retrieved Knowledge for Open-Domain QA [72.42262579925911]
COMBOは、より良いオープンドメインQAフレームワークのための互換性指向の知識の融合である。
COMBOは4つのテスト済みオープンドメインQAベンチマークのうち3つで競合ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-22T19:37:06Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。