論文の概要: Detect-Order-Construct: A Tree Construction based Approach for
Hierarchical Document Structure Analysis
- arxiv url: http://arxiv.org/abs/2401.11874v1
- Date: Mon, 22 Jan 2024 12:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:24:57.271622
- Title: Detect-Order-Construct: A Tree Construction based Approach for
Hierarchical Document Structure Analysis
- Title(参考訳): Detect-Order-Construct:階層型文書構造解析のための木構築に基づくアプローチ
- Authors: Jiawei Wang and Kai Hu and Zhuoyao Zhong and Lei Sun and Qiang Huo
- Abstract要約: 本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 10.020753349423844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document structure analysis (aka document layout analysis) is crucial for
understanding the physical layout and logical structure of documents, with
applications in information retrieval, document summarization, knowledge
extraction, etc. In this paper, we concentrate on Hierarchical Document
Structure Analysis (HDSA) to explore hierarchical relationships within
structured documents created using authoring software employing hierarchical
schemas, such as LaTeX, Microsoft Word, and HTML. To comprehensively analyze
hierarchical document structures, we propose a tree construction based approach
that addresses multiple subtasks concurrently, including page object detection
(Detect), reading order prediction of identified objects (Order), and the
construction of intended hierarchical structure (Construct). We present an
effective end-to-end solution based on this framework to demonstrate its
performance. To assess our approach, we develop a comprehensive benchmark
called Comp-HRDoc, which evaluates the above subtasks simultaneously. Our
end-to-end system achieves state-of-the-art performance on two large-scale
document layout analysis datasets (PubLayNet and DocLayNet), a high-quality
hierarchical document structure reconstruction dataset (HRDoc), and our
Comp-HRDoc benchmark. The Comp-HRDoc benchmark will be released to facilitate
further research in this field.
- Abstract(参考訳): 文書構造解析(いわゆる文書レイアウト解析)は,文書の物理的レイアウトや論理構造を理解する上で重要であり,情報検索,文書要約,知識抽出などにも応用されている。
本稿では,階層型文書構造解析(HDSA)に集中して,LaTeX,Microsoft Word,HTMLなどの階層型スキーマを用いたオーサリングソフトウェアを用いて作成した構造化文書内の階層的関係を探索する。
階層的文書構造を包括的に解析するために,ページオブジェクト検出(検出),特定されたオブジェクトの読み順序予測(順序),意図した階層構造の構築(構築)など,複数のサブタスクを同時に扱うツリー構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
提案手法を評価するために,上述のサブタスクを同時に評価するComp-HRDocという総合ベンチマークを開発した。
我々のエンドツーエンドシステムは,2つの大規模文書レイアウト解析データセット(PubLayNetとDocLayNet),高品質な階層的文書構造再構築データセット(HRDoc),およびComp-HRDocベンチマークの最先端性能を実現する。
Comp-HRDocベンチマークは、この分野のさらなる研究を促進するためにリリースされる予定である。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Document Structure in Long Document Transformers [64.76981299465885]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。
文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。
長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか?
事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-01-31T08:28:06Z) - DSG: An End-to-End Document Structure Generator [32.040520771901996]
Document Structure Generator (DSG) は、完全にエンドツーエンドのトレーニングが可能な文書解析のための新しいシステムである。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-10-13T14:03:01Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Cross-Domain Document Layout Analysis via Unsupervised Document Style
Guide [12.742967563805074]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - Extracting Variable-Depth Logical Document Hierarchy from Long
Documents: Method, Evaluation, and Application [21.270184491603864]
我々は、長いドキュメント(HELD)から階層抽出(Hierarchy extract)というフレームワークを開発し、各物理オブジェクトを現在のツリーの適切な位置に「逐次」挿入する。
中国、イギリスの金融市場、イギリスの科学出版物から何千もの長い文書に基づく実験。
本稿では,下流経路検索タスクの性能向上に論理文書階層を用いる方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T06:26:22Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。