論文の概要: M$^3$KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2512.20136v2
- Date: Wed, 24 Dec 2025 01:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.956219
- Title: M$^3$KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation
- Title(参考訳): M$3$KG-RAG:マルチホップマルチモーダル知識グラフ強化検索生成
- Authors: Hyeongcheol Park, Jiyoung Seo, Jaewon Mun, Hogun Park, Wonmin Byeon, Sung June Kim, Hyeonsoo Im, JeungSub Lee, Sangpil Kim,
- Abstract要約: M$3$KG-RAGはマルチホップマルチモーダル知識グラフ強化RAGである。
MMKGからクエリアラインな音声視覚知識を検索する。
推論の深さを改善し、MLLMの忠実さに答える。
- 参考スコア(独自算出の注目度): 20.170643730917963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has recently been extended to multimodal settings, connecting multimodal large language models (MLLMs) with vast corpora of external knowledge such as multimodal knowledge graphs (MMKGs). Despite their recent success, multimodal RAG in the audio-visual domain remains challenging due to 1) limited modality coverage and multi-hop connectivity of existing MMKGs, and 2) retrieval based solely on similarity in a shared multimodal embedding space, which fails to filter out off-topic or redundant knowledge. To address these limitations, we propose M$^3$KG-RAG, a Multi-hop Multimodal Knowledge Graph-enhanced RAG that retrieves query-aligned audio-visual knowledge from MMKGs, improving reasoning depth and answer faithfulness in MLLMs. Specifically, we devise a lightweight multi-agent pipeline to construct multi-hop MMKG (M$^3$KG), which contains context-enriched triplets of multimodal entities, enabling modality-wise retrieval based on input queries. Furthermore, we introduce GRASP (Grounded Retrieval And Selective Pruning), which ensures precise entity grounding to the query, evaluates answer-supporting relevance, and prunes redundant context to retain only knowledge essential for response generation. Extensive experiments across diverse multimodal benchmarks demonstrate that M$^3$KG-RAG significantly enhances MLLMs' multimodal reasoning and grounding over existing approaches.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、最近マルチモーダルな設定に拡張され、マルチモーダルな大言語モデル(MLLM)と、マルチモーダルな知識グラフ(MMKG)のような膨大な外部知識のコーパスを接続している。
最近の成功にもかかわらず、オーディオ視覚領域におけるマルチモーダルRAGは依然として困難である。
1)既存のMMKGのモダリティカバレッジとマルチホップ接続の制限
2)共有マルチモーダル埋め込み空間における類似性のみに基づく検索は,オフトピーや冗長な知識のフィルタリングに失敗する。
これらの制約に対処するために,M$^3$KG-RAGを提案する。M$^3$KG-RAGはマルチホップマルチモーダル知識グラフ強化RAGで,MMKGからクエリ整合型音声視覚知識を検索し,推論深度を改善し,MLLMの忠実度に答える。
具体的には、マルチホップMMKG(M$^3$KG)を構築するための軽量なマルチエージェントパイプラインを考案し、マルチモーダルエンティティのコンテキストに富んだ三重項を格納し、入力クエリに基づいてモダリティワイズ検索を可能にする。
さらに GRASP (Grounded Retrieval And Selective Pruning) を導入し,クエリの正確なエンティティを保証し,応答支援の妥当性を評価し,応答生成に必要な知識のみを保持するために冗長なコンテキストを創出する。
M$^3$KG-RAGはMLLMのマルチモーダル推論を著しく強化し、既存のアプローチを基礎づけることを示した。
関連論文リスト
- MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [16.248703946640735]
マルチモーダル知識グラフ(MMKG)は、複数のモーダルにまたがる明示的な知識を表す。
Visual-Audio-Text Knowledge Graph (VAT-KG)は、概念中心で知識集約型のマルチモーダル知識グラフである。
論文 参考訳(メタデータ) (2025-06-11T07:22:57Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Multimodal Reasoning with Multimodal Knowledge Graph [19.899398342533722]
大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。
マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。