論文の概要: MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2512.20626v1
- Date: Wed, 26 Nov 2025 05:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.091753
- Title: MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation
- Title(参考訳): MegaRAG:マルチモーダルな知識グラフに基づく検索生成
- Authors: Chi-Hsiang Hsiao, Yi-Cheng Wang, Tzung-Sheng Lin, Yi-Ren Yeh, Chu-Song Chen,
- Abstract要約: 大規模言語モデル(LLM)は、コンテキストウィンドウが限られているため、高レベルな概念的理解と包括的理解に苦慮する。
本稿では,マルチモーダルな知識グラフに基づくRAGを導入し,より優れたコンテンツ理解のためのクロスモーダル推論を実現する。
本手法では,知識グラフの構築,検索フェーズ,回答生成プロセスに視覚的手がかりを取り入れた。
- 参考スコア(独自算出の注目度): 17.382062394739588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) enables large language models (LLMs) to dynamically access external information, which is powerful for answering questions over previously unseen documents. Nonetheless, they struggle with high-level conceptual understanding and holistic comprehension due to limited context windows, which constrain their ability to perform deep reasoning over long-form, domain-specific content such as full-length books. To solve this problem, knowledge graphs (KGs) have been leveraged to provide entity-centric structure and hierarchical summaries, offering more structured support for reasoning. However, existing KG-based RAG solutions remain restricted to text-only inputs and fail to leverage the complementary insights provided by other modalities such as vision. On the other hand, reasoning from visual documents requires textual, visual, and spatial cues into structured, hierarchical concepts. To address this issue, we introduce a multimodal knowledge graph-based RAG that enables cross-modal reasoning for better content understanding. Our method incorporates visual cues into the construction of knowledge graphs, the retrieval phase, and the answer generation process. Experimental results across both global and fine-grained question answering tasks show that our approach consistently outperforms existing RAG-based approaches on both textual and multimodal corpora.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)が外部情報に動的にアクセスできるようにする。
それでも、コンテクストウィンドウが限られており、フル長本のような長文のドメイン固有のコンテンツに対して深い推論を行う能力が制限されているため、ハイレベルな概念的理解と包括的理解に苦慮している。
この問題を解決するため、知識グラフ(KG)が活用され、エンティティ中心の構造と階層的な要約を提供し、推論に対するより構造化された支援を提供する。
しかし、既存のKGベースのRAGソリューションはテキストのみの入力に限られており、視覚などの他のモダリティによって提供される補完的な洞察を活用できない。
一方、視覚文書からの推論には、構造化された階層的な概念へのテキスト、ビジュアル、空間的な手がかりが必要である。
この問題に対処するために,マルチモーダルな知識グラフに基づくRAGを導入する。
本手法では,知識グラフの構築,検索フェーズ,回答生成プロセスに視覚的手がかりを取り入れた。
その結果,本手法はテキストコーパスとマルチモーダルコーパスの両方において,既存のRAGベースのアプローチを一貫して上回ることがわかった。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - RAG-Anything: All-in-One RAG Framework [10.858282833070726]
RAG-Anythingは,すべてのモダリティにまたがる包括的知識検索を可能にする統一的なフレームワークである。
本手法は, 孤立データ型ではなく, 相互接続された知識エンティティとして, マルチモーダルコンテンツを再認識する。
論文 参考訳(メタデータ) (2025-10-14T09:25:35Z) - DSRAG: A Domain-Specific Retrieval Framework Based on Document-derived Multimodal Knowledge Graph [4.951890767337337]
この研究は、生成プロセスにおける知識グラフ品質の重要な役割を強調したグラフベースのRAGフレームワークに焦点を当てている。
ドメイン固有アプリケーション向けに設計されたマルチモーダルな知識グラフ駆動検索拡張生成フレームワークであるDSRAGを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:24:48Z) - MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。