論文の概要: mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.05318v1
- Date: Thu, 07 Aug 2025 12:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.850343
- Title: mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering
- Title(参考訳): mKG-RAG:ビジュアル質問応答のためのマルチモーダル知識グラフ強化RAG
- Authors: Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li,
- Abstract要約: Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。
本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
- 参考スコア(独自算出の注目度): 29.5761347590239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Retrieval-Augmented Generation (RAG) has been proposed to expand internal knowledge of Multimodal Large Language Models (MLLMs) by incorporating external knowledge databases into the generation process, which is widely used for knowledge-based Visual Question Answering (VQA) tasks. Despite impressive advancements, vanilla RAG-based VQA methods that rely on unstructured documents and overlook the structural relationships among knowledge elements frequently introduce irrelevant or misleading content, reducing answer accuracy and reliability. To overcome these challenges, a promising solution is to integrate multimodal knowledge graphs (KGs) into RAG-based VQA frameworks to enhance the generation by introducing structured multimodal knowledge. Therefore, in this paper, we propose a novel multimodal knowledge-augmented generation framework (mKG-RAG) based on multimodal KGs for knowledge-intensive VQA tasks. Specifically, our approach leverages MLLM-powered keyword extraction and vision-text matching to distill semantically consistent and modality-aligned entities/relationships from multimodal documents, constructing high-quality multimodal KGs as structured knowledge representations. In addition, a dual-stage retrieval strategy equipped with a question-aware multimodal retriever is introduced to improve retrieval efficiency while refining precision. Comprehensive experiments demonstrate that our approach significantly outperforms existing methods, setting a new state-of-the-art for knowledge-based VQA.
- Abstract(参考訳): 近年,知識に基づく視覚質問応答(VQA)タスクに広く利用されている,外部知識データベースを生成プロセスに組み込むことで,マルチモーダル大言語モデル(MLLM)の内部知識を拡張するために,RAG(Retrieval-Augmented Generation)が提案されている。
目覚ましい進歩にもかかわらず、バニラRAGベースのVQA手法は、構造化されていない文書に依存し、知識要素間の構造的関係を見落とし、しばしば無関係または誤解を招くコンテンツを導入し、答えの正確さと信頼性を低下させる。
これらの課題を克服するために、有望な解決策は、マルチモーダル知識グラフ(KG)をRAGベースのVQAフレームワークに統合し、構造化マルチモーダル知識を導入して生成を強化することである。
そこで本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダルな知識付加型生成フレームワーク(mKG-RAG)を提案する。
具体的には、MLLMを利用したキーワード抽出と視覚テキストマッチングを利用して、多モーダル文書から意味論的に一貫性のある、モダリティに整合したエンティティ/関係を抽出し、構造化知識表現として高品質なマルチモーダルKGを構築する。
また,質問認識型マルチモーダル検索器を備えた二段階検索方式を導入し,精度を向上しつつ検索効率を向上させる。
包括的実験により,本手法は既存の手法を著しく上回り,知識に基づくVQAのための新たな最先端技術が確立された。
関連論文リスト
- VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [3.1033038923749774]
視覚情報,音声情報,テキスト情報を網羅する,概念中心の知識集約型マルチモーダル知識グラフを提案する。
構築パイプラインは,マルチモーダルデータと細粒度セマンティクスの相互知識アライメントを保証する。
本稿では,任意のモダリティからクエリに応答して,概念レベルの詳細な知識を検索する,新しいマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T07:22:57Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [17.75545831558775]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - A Survey of Multimodal Retrieval-Augmented Generation [3.9616308910160445]
MRAG(Multimodal Retrieval-Augmented Generation)は、マルチモーダルデータ(テキスト、画像、ビデオ)を検索および生成プロセスに統合することにより、大規模言語モデル(LLM)を強化する。
近年の研究では、MRAGは視覚とテキストの両方の理解を必要とするシナリオにおいて、従来の検索・拡張生成(RAG)よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T02:43:09Z) - RAG-KG-IL: A Multi-Agent Hybrid Framework for Reducing Hallucinations and Enhancing LLM Reasoning through RAG and Incremental Knowledge Graph Learning Integration [4.604003661048267]
RAG-KG-ILは、大規模言語モデルの推論能力を高めるために設計された、新しいマルチエージェントハイブリッドフレームワークである。
Retrieval-Augmented Generation (RAG) と Knowledge Graphs (KG) をインクリメンタルラーニング (IL) アプローチに統合する。
我々は、健康関連クエリを含む実世界のケーススタディを用いて、このフレームワークを評価する。
論文 参考訳(メタデータ) (2025-03-14T11:50:16Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。