論文の概要: UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
- arxiv url: http://arxiv.org/abs/2503.15893v1
- Date: Thu, 20 Mar 2025 06:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.297541
- Title: UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
- Title(参考訳): UniHDSA:階層型文書構造解析のための統一関係予測手法
- Authors: Jiawei Wang, Kai Hu, Qiang Huo,
- Abstract要約: 我々は、UniHDSAと呼ばれるHDSAの統一的な関係予測手法を提案する。
UniHDSAは、様々なHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合する。
これにより、ページレベルでもドキュメントレベルでも、単一の関係予測モジュールが複数のタスクを同時に処理できる。
- 参考スコア(独自算出の注目度): 7.057192434574117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document structure analysis, aka document layout analysis, is crucial for understanding both the physical layout and logical structure of documents, serving information retrieval, document summarization, knowledge extraction, etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to restore the hierarchical structure of documents created using authoring software with hierarchical schemas. Previous research has primarily followed two approaches: one focuses on tackling specific subtasks of HDSA in isolation, such as table detection or reading order prediction, while the other adopts a unified framework that uses multiple branches or modules, each designed to address a distinct task. In this work, we propose a unified relation prediction approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as relation prediction problems and consolidates relation prediction labels into a unified label space. This allows a single relation prediction module to handle multiple tasks simultaneously, whether at a page-level or document-level structure analysis. To validate the effectiveness of UniHDSA, we develop a multimodal end-to-end system based on Transformer architectures. Extensive experimental results demonstrate that our approach achieves state-of-the-art performance on a hierarchical document structure analysis benchmark, Comp-HRDoc, and competitive results on a large-scale document layout analysis dataset, DocLayNet, effectively illustrating the superiority of our method across all sub-tasks.
- Abstract(参考訳): 文書構造解析、いわゆる文書レイアウト解析は、文書の物理的レイアウトと論理的構造の両方を理解するために重要であり、情報検索、文書要約、知識抽出などを提供する。
階層型文書構造解析(HDSA)は、階層型スキーマを用いたオーサリングソフトウェアを用いて作成した文書の階層構造を復元することを目的としている。
テーブル検出や読み込み順序予測など、HDSAの特定のサブタスクを分離して扱うことに焦点を当てたものと、複数のブランチやモジュールを使用する統一されたフレームワークを採用しており、それぞれが異なるタスクに対処するように設計されている。
そこで本研究では,様々なHDSAサブタスクを関係予測問題として扱い,関係予測ラベルを統一ラベル空間に集約する,HDSAの統一関係予測手法UniHDSAを提案する。
これにより、ページレベルでもドキュメントレベルでも、単一の関係予測モジュールが複数のタスクを同時に処理できる。
UniHDSAの有効性を検証するために,Transformerアーキテクチャに基づくマルチモーダル・エンド・ツー・エンド・システムを開発した。
大規模文書レイアウト解析データセットであるDocLayNetでは,階層型文書構造解析ベンチマークであるComp-HRDocと競合する結果が得られた。
関連論文リスト
- DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning [39.10966524559436]
文書画像のセグメンテーションは、文書解析と認識に不可欠である。
既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。
本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
論文 参考訳(メタデータ) (2025-04-05T07:14:53Z) - Graph-based Document Structure Analysis [26.79096546002763]
本稿では,新しいグラフベース文書構造解析(gDSA)タスクを提案する。
このタスクでは、モデルが文書要素を検出するだけでなく、グラフ構造の形で空間的および論理的関係を生成する必要がある。
関係グラフに基づく文書構造解析データセット(GraphDoc)を80Kの文書画像と4.13Mの関連アノテーションで構築する。
論文 参考訳(メタデータ) (2025-02-04T17:16:14Z) - CAISSON: Concept-Augmented Inference Suite of Self-Organizing Neural Networks [0.0]
本稿では,レトリーバル・Augmented Generation(RAG)に対する新しい階層的アプローチであるCAISSONを紹介する。
CAISSONの中核は、文書空間の補完的な組織ビューを作成するために、二重自己組織化マップ(SOM)を活用している。
CAISSONを評価するために,合成財務分析ノートと質問応答ペアを生成するフレームワークであるSynFAQAを開発した。
論文 参考訳(メタデータ) (2024-12-03T21:00:10Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis [9.340346869932434]
本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-22T12:00:37Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。