論文の概要: Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding
- arxiv url: http://arxiv.org/abs/2510.15253v1
- Date: Fri, 17 Oct 2025 02:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.442168
- Title: Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding
- Title(参考訳): コンテキストを越えたスケーリング: 文書理解のためのマルチモーダル検索型生成に関する調査
- Authors: Sensen Gao, Shanshan Zhao, Xu Jiang, Lunhao Duan, Yong Xien Chng, Qing-Guo Chen, Weihua Luo, Kaifu Zhang, Jia-Wang Bian, Mingming Gong,
- Abstract要約: 文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
- 参考スコア(独自算出の注目度): 61.36285696607487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding is critical for applications from financial analysis to scientific discovery. Current approaches, whether OCR-based pipelines feeding Large Language Models (LLMs) or native Multimodal LLMs (MLLMs), face key limitations: the former loses structural detail, while the latter struggles with context modeling. Retrieval-Augmented Generation (RAG) helps ground models in external data, but documents' multimodal nature, i.e., combining text, tables, charts, and layout, demands a more advanced paradigm: Multimodal RAG. This approach enables holistic retrieval and reasoning across all modalities, unlocking comprehensive document intelligence. Recognizing its importance, this paper presents a systematic survey of Multimodal RAG for document understanding. We propose a taxonomy based on domain, retrieval modality, and granularity, and review advances involving graph structures and agentic frameworks. We also summarize key datasets, benchmarks, and applications, and highlight open challenges in efficiency, fine-grained representation, and robustness, providing a roadmap for future progress in document AI.
- Abstract(参考訳): 文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models (LLM) やネイティブのMultimodal LLMs (MLLM) を供給しているか、という制限に直面している。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質、すなわちテキスト、テーブル、チャート、レイアウトの組み合わせは、より高度なパラダイムを必要とする。
このアプローチは、すべてのモダリティを網羅した総合的な検索と推論を可能にし、包括的なドキュメントインテリジェンスをアンロックする。
本稿では,その重要性を認識し,文書理解のためのマルチモーダルRAGを体系的に調査する。
本稿では, ドメイン, 検索モダリティ, 粒度に基づく分類法を提案し, グラフ構造やエージェント・フレームワークの進歩を概観する。
また、主要なデータセット、ベンチマーク、アプリケーションも要約し、効率、きめ細かい表現、堅牢性のオープンな課題を強調し、ドキュメントAIの将来的な進歩のロードマップを提供しています。
関連論文リスト
- Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval [1.160208922584163]
モーダリティを意識した知識グラフを用いた多モーダル質問応答のためのモーダリティ・アウェア・ハイブリッド検索アーキテクチャ(MAHA)を提案する。
MAHAは、密接なベクトル検索と構造化グラフトラバーサルを統合し、知識グラフはクロスモーダルなセマンティクスと関係を符号化する。
我々の研究は、非構造化マルチモーダルデータに対するモダリティを考慮した推論を可能にすることにより、RAGシステムを進化させるスケーラブルで解釈可能な検索フレームワークを確立する。
論文 参考訳(メタデータ) (2025-10-16T11:55:24Z) - Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation [47.714317480436215]
PreMIRはMLLMの幅広い知識を活用して、検索前にクロスモーダルな事前質問(preQ)を生成するシンプルなフレームワークである。
実験により、PreMIRは、クローズドドメインやマルチリンガル設定など、分散ベンチマークから得られるアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2025-08-23T16:14:41Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。