論文の概要: Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis
- arxiv url: http://arxiv.org/abs/2401.11874v2
- Date: Thu, 28 Mar 2024 08:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:02:36.371836
- Title: Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis
- Title(参考訳): Detect-Order-Construct:階層型文書構造解析のための木構築に基づくアプローチ
- Authors: Jiawei Wang, Kai Hu, Zhuoyao Zhong, Lei Sun, Qiang Huo,
- Abstract要約: 本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.340346869932434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document structure analysis (aka document layout analysis) is crucial for understanding the physical layout and logical structure of documents, with applications in information retrieval, document summarization, knowledge extraction, etc. In this paper, we concentrate on Hierarchical Document Structure Analysis (HDSA) to explore hierarchical relationships within structured documents created using authoring software employing hierarchical schemas, such as LaTeX, Microsoft Word, and HTML. To comprehensively analyze hierarchical document structures, we propose a tree construction based approach that addresses multiple subtasks concurrently, including page object detection (Detect), reading order prediction of identified objects (Order), and the construction of intended hierarchical structure (Construct). We present an effective end-to-end solution based on this framework to demonstrate its performance. To assess our approach, we develop a comprehensive benchmark called Comp-HRDoc, which evaluates the above subtasks simultaneously. Our end-to-end system achieves state-of-the-art performance on two large-scale document layout analysis datasets (PubLayNet and DocLayNet), a high-quality hierarchical document structure reconstruction dataset (HRDoc), and our Comp-HRDoc benchmark. The Comp-HRDoc benchmark will be released to facilitate further research in this field.
- Abstract(参考訳): 文書構造解析(いわゆる文書レイアウト解析)は,文書の物理的レイアウトや論理構造を理解する上で重要であり,情報検索,文書要約,知識抽出などにも応用されている。
本稿では,階層型文書構造解析(HDSA)に集中して,LaTeX,Microsoft Word,HTMLなどの階層型スキーマを用いたオーサリングソフトウェアを用いて作成した構造化文書内の階層的関係を探索する。
階層的な文書構造を包括的に解析するために,ページオブジェクト検出(Detect),識別されたオブジェクトの順序予測(Order),意図された階層構造の構築(Construct)など,複数のサブタスクを同時に処理する木構築ベースアプローチを提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
提案手法を評価するために,上述のサブタスクを同時に評価するComp-HRDocという総合ベンチマークを開発した。
我々のエンドツーエンドシステムは,2つの大規模文書レイアウト解析データセット(PubLayNetとDocLayNet),高品質な階層的文書構造再構築データセット(HRDoc),およびComp-HRDocベンチマークに対して,最先端のパフォーマンスを実現する。
Comp-HRDocベンチマークは、この分野のさらなる研究を促進するためにリリースされる予定である。
関連論文リスト
- Seg2Act: Global Context-aware Action Generation for Document Logical Structuring [45.55145491566147]
文書論理構造化のためのエンドツーエンドな生成手法であるSeg2Actを紹介する。
Seg2Actは、グローバルコンテキスト認識生成モデルを介してアクションシーケンスを反復的に生成し、そのグローバルコンテキストと現在の論理構造を同時に更新する。
ChCatExtとHierDocデータセットの実験は、教師付きおよび転送学習設定の両方において、Seg2Actの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-09T11:58:40Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。