論文の概要: LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding
- arxiv url: http://arxiv.org/abs/2605.22829v1
- Date: Sat, 18 Apr 2026 05:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.443822
- Title: LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding
- Title(参考訳): LFRAG:マルチモーダル文書理解のためのレイアウト指向のきめ細かい検索生成
- Authors: Yifan Zhu, Yu Mi, Yue Lu, Yanchu Guan, Zhixuan Chu,
- Abstract要約: 本稿では,ページレベルからブロックレベルまで多モードRAGを進化させる新しいフレームワークLFRAGを提案する。
ブロックレベルの遅延検索により、LFRAGは正確なクエリコンテンツアライメントを可能にし、ダウンストリーム生成のための無関係なコンテンツを削減する。
LFDocQAの実験では、LFRAGは検索タスクにおける最先端のパフォーマンスを達成し、解答精度が7.20%向上し、生成タスクにおけるトークン消費が73.07%減少した。
- 参考スコア(独自算出の注目度): 23.227000200423458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Retrieval-Augmented Generation (RAG) has emerged as an effective paradigm for enhancing Large Language Models (LLMs) with external knowledge. However, existing multimodal RAG systems predominantly rely on coarse-grained page-level retrieval, which fails to capture fine-grained semantic and layout structures in visually rich documents, thereby compromising retrieval accuracy and leading to redundant context in downstream tasks. To address these issues, we propose Layout-oriented Fine-grained Retrieval-Augmented Generation (LFRAG), a novel framework that advances multimodal RAG from page-level to block-level retrieval. We perform layout segmentation to construct semantically coherent fine-grained retrieval units and design a semantic-layout fusion encoder that integrates local semantics with global context via cross-attention. With block-level late interaction retrieval, LFRAG enables precise query-content alignment and reduces irrelevant content for downstream generation. To enable rigorous evaluation, we construct LFDocQA, a large-scale benchmark with block-level annotations spanning diverse document types, designed to assess both multimodal document retrieval and question answering with greater granularity than existing datasets. Extensive experiments on LFDocQA demonstrate that LFRAG achieves state-of-the-art performance on retrieval tasks, outperforms the best baseline by 7.20% in answer accuracy, and reduces token consumption by 73.07% in generation tasks, confirming LFRAG as an accurate and efficient framework for multimodal RAG over visually rich documents. Our code and datasets will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)を外部知識で拡張するための効果的なパラダイムとして,マルチモーダル検索・拡張生成(RAG)が登場している。
しかし、既存のマルチモーダルRAGシステムは、主に粗粒度ページレベルの検索に依存しており、視覚的にリッチな文書の細粒度セマンティック構造やレイアウト構造を捕捉できないため、検索精度が向上し、下流タスクにおける冗長なコンテキストに繋がる。
これらの問題に対処するため、ページレベルからブロックレベルまで多モードRAGを進化させる新しいフレームワークLFRAG(Layout-oriented Fine-fine Retrieval-Augmented Generation)を提案する。
セマンティック・コヒーレントな細粒度検索ユニットを構築するためにレイアウトセグメンテーションを行い、クロスアテンションを介して局所的なセマンティックスとグローバルなコンテキストを統合するセマンティック・レイアウト・フュージョン・エンコーダを設計する。
ブロックレベルの遅延相互作用検索により、LFRAGは正確なクエリコンテンツアライメントを可能にし、ダウンストリーム生成のための無関係なコンテンツを削減する。
厳密な評価を可能にするため,さまざまな文書タイプにまたがるブロックレベルのアノテーションを備えた大規模ベンチマークLFDocQAを構築し,既存のデータセットよりも粒度の高いマルチモーダル文書検索と質問応答の両方を評価する。
LFDocQAの大規模な実験により、LFRAGは検索タスクにおける最先端のパフォーマンスを達成し、解答精度が7.20%向上し、生成タスクにおけるトークン消費量が73.07%削減された。
コードとデータセットはまもなくリリースされます。
関連論文リスト
- MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A [13.040489131301081]
MM-BizRAGは文書構造認識スプリットを介して文書構造を積極的に抽出し、表現する。
MM-BizRAGは、最先端のビジョン中心のベースラインを最大32%上回っている。
論文 参考訳(メタデータ) (2026-06-02T21:31:47Z) - MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation [3.537921035534424]
マルチモーダルチャンククエリグラフ(MCQG)は、異種文書チャンクから意味的にリッチで応答可能なクエリを生成する。
このグラフに基づく構造は、選択的でクエリ中心の検索と構造化されたエビデンスアグリゲーションを可能にする。
データセットMMLongBench-DocとLongDocURLの実験では、MLDocRAGは検索品質と回答精度を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T20:29:10Z) - MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering [51.19392014547221]
検索型マルチモーダル文書QAは,視覚的にリッチな文書から複雑なマルチモーダル構造を持つ関連情報を識別し,統合することを目的としている。
現在のアプローチは、サージェントなコンテンツを見渡すクエリに依存しないドキュメント表現に依存しています。
本稿では,クエリ適応生成を導入したMultimodal Adaptive Retrieval-Augmented (MARA)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:27:40Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.48202014877111]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。