論文の概要: M3DocDep: Multi-modal, Multi-page, Multi-document Dependency Chunking with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.18774v1
- Date: Fri, 17 Apr 2026 05:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.935355
- Title: M3DocDep: Multi-modal, Multi-page, Multi-document Dependency Chunking with Large Vision-Language Models
- Title(参考訳): M3DocDep:大規模ビジョンランゲージモデルによるマルチモーダル・マルチページ・マルチドキュメント依存チャンク
- Authors: Joongmin Shin, Jeongbae Park, Jaehyung Seo, Heuiseok Lim,
- Abstract要約: LVLMベースのパイプラインであるM3DocDepを提案する。
共有ブロック評価プロトコルの下で、M3DocDepはDHPベンチマークでSTEDSを+28.5から+39.6%改善し、nDCGを+1.1から+15.3%、QA ANLSを+4.5から+15.3%改善した。
- 参考スコア(独自算出の注目度): 20.44093242908907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In long, multi-page industrial documents, retrieval-augmented generation (RAG) depends heavily on whether chunk boundaries follow the document's true structure. Existing text-centric chunkers and generative hierarchy parsers often miss cross-page parent-child relations, figure/table-caption bindings, and boundary cues, which leads to fragmented or redundant chunks and degrades both retrieval and answer quality. We propose M3DocDep, an LVLM-based pipeline that first recovers block-level dependencies and then constructs chunks along the recovered document tree. The pipeline uses SharedDet as a common DP+OCR preprocessing layer, extracts multimodal block embeddings with boundary-aware SoftROI pooling, scores candidate parent-child edges with a biaffine head, decodes a globally valid dependency tree with MST constraints, and builds tree-guided chunks annotated with section paths and page ranges. Under a shared-block evaluation protocol, M3DocDep improves STEDS by +28.5 to +39.6 percent on DHP benchmarks, retrieval nDCG by +1.1 to +15.3 percent, and QA ANLS by +4.5 to +15.3 percent on corpus-level RAG benchmarks. These results show that recovering document dependencies before chunking yields more coherent retrieval units for long, multi-page multimodal documents.
- Abstract(参考訳): 長期にわたる多ページ産業文書において、検索拡張生成(RAG)は、チャンク境界が文書の真の構造に従うかどうかに大きく依存する。
既存のテキスト中心のチャンカーと生成階層パーサは、親子関係、図形/テーブルのキャプションバインディング、バウンダリキューを見逃しがちである。
LVLMベースのパイプラインであるM3DocDepを提案する。
パイプラインは共通のDP+OCR前処理レイヤとしてSharedDetを使用し、境界を意識したSoftROIプーリングによるマルチモーダルブロック埋め込みを抽出し、ビファインヘッドで親子エッジをスコア付けし、MST制約でグローバルに有効な依存性ツリーをデコードし、セクションパスとページ範囲に注釈を付けたツリー誘導チャンクを構築する。
共有ブロック評価プロトコルの下で、M3DocDepはDHPベンチマークでSTEDSを+28.5から+39.6%改善し、nDCGを+1.1から+15.3%、QA ANLSを+4.5から+15.3%改善した。
これらの結果から, チャンク前の文書依存の回復により, 複数ページにわたる長い文書に対して, より一貫性のある検索ユニットが得られることがわかった。
関連論文リスト
- MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing [74.84107522458798]
MPDocBench-Parseは、現実世界のアプリケーションにおけるマルチページ文書解析のためのベンチマークである。
433の注釈付き文書に3,246ページあり、英語と中国語の15種類の文書を網羅しており、レイアウトは様々である。
論文 参考訳(メタデータ) (2026-05-21T07:36:41Z) - Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation [3.338186852016847]
$-RAGは2つの主要なコンポーネントを持つツリーRAGフレームワークである。
トークンレベルの質問応答からドキュメントレベルの要約まで,さまざまなタスクをサポートする。
RAPTORを25.9%、HippoRAG 2を7.4%上回っている。
論文 参考訳(メタデータ) (2026-05-01T09:06:23Z) - Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets [7.102370558887478]
本稿では,長い文書コレクションに対する質問応答のためのフレームワークであるSLIDERSについて,構造化された推論を通して紹介する。
SLIDERSは、有能な情報をリレーショナルデータベースに抽出し、永続的な構造化状態に対するスケーラブルな推論を可能にする。
既存の3つのロングコンテキストベンチマークにおいて、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-04-24T07:16:44Z) - MultiDocFusion: Hierarchical and Multimodal Chunking Pipeline for Enhanced RAG on Long Industrial Documents [30.113467423647865]
RAGベースのQAは、長い産業文書を処理するための強力な方法として登場した。
我々はマルチモーダル・チャンキング・パイプラインであるMultiDocFusionを紹介した。
実験により,MultiDocFusionは検索精度を8~15%向上し,ANLS QAスコアは2~3%向上した。
論文 参考訳(メタデータ) (2026-04-14T06:40:22Z) - SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation [0.0]
SPD-RAG(SPD-RAG)は,クロスドキュメントな質問応答のための階層型マルチエージェントフレームワークである。
各文書は、自身のコンテンツのみで動作する専用文書レベルエージェントによって処理され、集中した検索が可能となる。
SPD-RAGは58.1(GPT-5評価)のAvgスコアを達成し、正規RAG(3.0)とエージェントRAG(32.8)を上回り、フルコンテキストベースライン(68.0)のAPIコストの38%しか使用していない。
論文 参考訳(メタデータ) (2026-03-09T12:46:32Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models [107.86069298500855]
ToMは、長期コンテキスト推論のための新しいツリー指向MapReduceフレームワークである。
ToM は既存の分割・クエリー・フレームワークや検索拡張生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-11-01T10:43:58Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。