論文の概要: MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2602.10271v1
- Date: Tue, 10 Feb 2026 20:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.270373
- Title: MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation
- Title(参考訳): MLDocRAG:マルチモーダル長文文書検索生成
- Authors: Yongyue Zhang, Yaxiong Wu,
- Abstract要約: マルチモーダルチャンククエリグラフ(MCQG)は、異種文書チャンクから意味的にリッチで応答可能なクエリを生成する。
このグラフに基づく構造は、選択的でクエリ中心の検索と構造化されたエビデンスアグリゲーションを可能にする。
データセットMMLongBench-DocとLongDocURLの実験では、MLDocRAGは検索品質と回答精度を一貫して改善している。
- 参考スコア(独自算出の注目度): 3.537921035534424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding multimodal long-context documents that comprise multimodal chunks such as paragraphs, figures, and tables is challenging due to (1) cross-modal heterogeneity to localize relevant information across modalities, (2) cross-page reasoning to aggregate dispersed evidence across pages. To address these challenges, we are motivated to adopt a query-centric formulation that projects cross-modal and cross-page information into a unified query representation space, with queries acting as abstract semantic surrogates for heterogeneous multimodal content. In this paper, we propose a Multimodal Long-Context Document Retrieval Augmented Generation (MLDocRAG) framework that leverages a Multimodal Chunk-Query Graph (MCQG) to organize multimodal document content around semantically rich, answerable queries. MCQG is constructed via a multimodal document expansion process that generates fine-grained queries from heterogeneous document chunks and links them to their corresponding content across modalities and pages. This graph-based structure enables selective, query-centric retrieval and structured evidence aggregation, thereby enhancing grounding and coherence in long-context multimodal question answering. Experiments on datasets MMLongBench-Doc and LongDocURL demonstrate that MLDocRAG consistently improves retrieval quality and answer accuracy, demonstrating its effectiveness for long-context multimodal understanding.
- Abstract(参考訳): 段落,図形,表などのマルチモーダルなチャンクを構成するマルチモーダルな長文文書の理解は,(1)モダリティ間で関連情報をローカライズするクロスモーダルな異質性,(2)ページ間での集合的証拠を集約するクロスページ推論により困難である。
これらの課題に対処するために、我々は、異種マルチモーダルコンテンツのための抽象的なセマンティックサロゲートとして機能するクエリを用いて、クロスモーダルおよびクロスページ情報を統一されたクエリ表現空間に投影するクエリ中心の定式化を採用する。
本稿では,Multimodal Chunk-Query Graph(MCQG)を利用したMLDocRAG(Multimodal Long-Context Document Retrieval Augmented Generation)フレームワークを提案する。
MCQGは、不均一な文書チャンクからきめ細かいクエリを生成し、モダリティやページ間でそれらのコンテンツにリンクするマルチモーダル文書拡張プロセスによって構築される。
このグラフに基づく構造は、選択的なクエリ中心の検索と構造化されたエビデンスアグリゲーションを可能にし、長文のマルチモーダル質問応答におけるグラウンド化とコヒーレンスを向上させる。
データセットMMLongBench-DocとLongDocURLの実験では、MLDocRAGは検索品質と解答精度を一貫して改善し、長文マルチモーダル理解の有効性を実証している。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning [5.55667293255701]
マルチモーダルな長文文書問合せタスクは、複数のページに分散したマルチモーダルなエビデンスを特定し、統合することを目的としている。
既存の手法はLVLM(Large Vision-Language Model)とRAG(Retrieval-Augmented Generation)に分類できる。
MHier-RAGと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。