論文の概要: MoDora: Tree-Based Semi-Structured Document Analysis System
- arxiv url: http://arxiv.org/abs/2602.23061v1
- Date: Thu, 26 Feb 2026 14:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.727537
- Title: MoDora: Tree-Based Semi-Structured Document Analysis System
- Title(参考訳): MoDora:木をベースとした半構造化文書解析システム
- Authors: Bangrui Xu, Qihang Yao, Zirui Tang, Xuanhe Zhou, Yeye He, Shihan Yu, Qianqian Xu, Bin Wang, Guoliang Li, Conghui He, Fan Wu,
- Abstract要約: 半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
- 参考スコア(独自算出の注目度): 62.01015188258797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-structured documents integrate diverse interleaved data elements (e.g., tables, charts, hierarchical paragraphs) arranged in various and often irregular layouts. These documents are widely observed across domains and account for a large portion of real-world data. However, existing methods struggle to support natural language question answering over these documents due to three main technical challenges: (1) The elements extracted by techniques like OCR are often fragmented and stripped of their original semantic context, making them inadequate for analysis. (2) Existing approaches lack effective representations to capture hierarchical structures within documents (e.g., associating tables with nested chapter titles) and to preserve layout-specific distinctions (e.g., differentiating sidebars from main content). (3) Answering questions often requires retrieving and aligning relevant information scattered across multiple regions or pages, such as linking a descriptive paragraph to table cells located elsewhere in the document. To address these issues, we propose MoDora, an LLM-powered system for semi-structured document analysis. First, we adopt a local-alignment aggregation strategy to convert OCR-parsed elements into layout-aware components, and conduct type-specific information extraction for components with hierarchical titles or non-text elements. Second, we design the Component-Correlation Tree (CCTree) to hierarchically organize components, explicitly modeling inter-component relations and layout distinctions through a bottom-up cascade summarization process. Finally, we propose a question-type-aware retrieval strategy that supports (1) layout-based grid partitioning for location-based retrieval and (2) LLM-guided pruning for semantic-based retrieval. Experiments show MoDora outperforms baselines by 5.97%-61.07% in accuracy. The code is at https://github.com/weAIDB/MoDora.
- Abstract(参考訳): 半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素(例えば、表、チャート、階層的な段落)を統合する。
これらの文書はドメイン間で広く観察され、現実世界のデータの大部分を占める。
しかし, 従来の手法では, 1) OCR のような手法によって抽出された要素は断片化され, 本来の意味的文脈から取り除かれることが多く, 解析に不適当である。
2)既存の手法では,文書内の階層構造(例えば,ネストした章の表を関連づける)を捕捉し,レイアウト固有の区別(例えば,主内容からサイドバーを区別する)を維持するための効果的な表現が欠如している。
(3)回答には、文書内の他の場所にあるテーブルセルと説明段落をリンクするなど、複数の地域又はページに散在する関連情報を検索・整合させることがしばしば必要となる。
これらの問題に対処するために,半構造化文書解析のためのLLM方式であるMoDoraを提案する。
まず、OCRパースした要素をレイアウト対応コンポーネントに変換し、階層的なタイトルや非テキスト要素を持つコンポーネントに対して、タイプ固有の情報抽出を行う。
第2に,コンポーネント相関木 (CCTree) を設計し,階層的にコンポーネントを整理し,ボトムアップカスケードの要約プロセスを通じてコンポーネント間の関係とレイアウトの区別を明示的にモデル化する。
最後に,(1)レイアウトに基づくグリッド分割による位置ベース検索と(2)意味に基づく検索のためのLCM誘導プルーニングを支援する質問型検索戦略を提案する。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
コードはhttps://github.com/weAIDB/MoDoraにある。
関連論文リスト
- DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding [30.54420648726099]
文書レベルの構造文書MAPは、階層的組織と多モード文書内の要素間関係の両方を符号化する。
この表現に基づいて、リフレクティブ推論エージェントは構造認識およびエビデンス駆動推論を実行する。
MMDocQAベンチマークの実験では、DMAPが文書固有の構造表現を人間の解釈パターンと一致させることが示されている。
論文 参考訳(メタデータ) (2026-01-26T06:38:25Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。