論文の概要: DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding
- arxiv url: http://arxiv.org/abs/2601.18203v1
- Date: Mon, 26 Jan 2026 06:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.707513
- Title: DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding
- Title(参考訳): DMAP:マルチモーダル文書理解のためのヒューマンアライン構造文書マップ
- Authors: ShunLiang Fu, Yanxin Zhang, Yixin Xiang, Xiaoyu Du, Jinhui Tang,
- Abstract要約: 文書レベルの構造文書MAPは、階層的組織と多モード文書内の要素間関係の両方を符号化する。
この表現に基づいて、リフレクティブ推論エージェントは構造認識およびエビデンス駆動推論を実行する。
MMDocQAベンチマークの実験では、DMAPが文書固有の構造表現を人間の解釈パターンと一致させることが示されている。
- 参考スコア(独自算出の注目度): 30.54420648726099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal document question-answering (QA) systems predominantly rely on flat semantic retrieval, representing documents as a set of disconnected text chunks and largely neglecting their intrinsic hierarchical and relational structures. Such flattening disrupts logical and spatial dependencies - such as section organization, figure-text correspondence, and cross-reference relations, that humans naturally exploit for comprehension. To address this limitation, we introduce a document-level structural Document MAP (DMAP), which explicitly encodes both hierarchical organization and inter-element relationships within multimodal documents. Specifically, we design a Structured-Semantic Understanding Agent to construct DMAP by organizing textual content together with figures, tables, charts, etc. into a human-aligned hierarchical schema that captures both semantic and layout dependencies. Building upon this representation, a Reflective Reasoning Agent performs structure-aware and evidence-driven reasoning, dynamically assessing the sufficiency of retrieved context and iteratively refining answers through targeted interactions with DMAP. Extensive experiments on MMDocQA benchmarks demonstrate that DMAP yields document-specific structural representations aligned with human interpretive patterns, substantially enhancing retrieval precision, reasoning consistency, and multimodal comprehension over conventional RAG-based approaches. Code is available at https://github.com/Forlorin/DMAP
- Abstract(参考訳): 既存のマルチモーダル文書問合せシステム(QA)は主にフラットな意味検索に依存しており、文書を不連結なテキストチャンクの集合として表現し、本質的な階層構造や関係構造を無視している。
このような平坦化は、セクション構成、図形文の対応、相互参照関係などの論理的および空間的依存関係を阻害し、人間が理解のために自然に活用する。
この制限に対処するため,マルチモーダル文書内の階層構造と要素間関係を明示的に符号化した文書レベルの構造的文書MAP(DMAP)を導入する。
具体的には、図形、表、チャートなどのテキストコンテンツを、意味的およびレイアウトの依存関係をキャプチャする階層的なスキーマに整理することで、DMAPを構築する構造的意味理解エージェントを設計する。
この表現に基づいて、リフレクティブ推論エージェントは、構造認識およびエビデンス駆動の推論を行い、検索されたコンテキストの空白度を動的に評価し、DMAPとのターゲットインタラクションを通じて回答を反復的に精製する。
MMDocQAベンチマークの大規模な実験により、DMAPは人間の解釈パターンに沿った文書固有の構造表現をもたらし、従来のRAGに基づくアプローチに対する検索精度、推論整合性、マルチモーダル理解を大幅に向上させることが示された。
コードはhttps://github.com/Forlorin/DMAPで入手できる。
関連論文リスト
- BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis [7.057192434574117]
我々は、UniHDSAと呼ばれるHDSAの統一的な関係予測手法を提案する。
UniHDSAは、様々なHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合する。
UniHDSAの有効性を検証するために,Transformerアーキテクチャに基づくマルチモーダル・エンド・ツー・エンド・システムを開発した。
論文 参考訳(メタデータ) (2025-03-20T06:44:47Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis [9.340346869932434]
本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-22T12:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。