論文の概要: UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
- arxiv url: http://arxiv.org/abs/2503.15893v2
- Date: Wed, 26 Mar 2025 02:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:49.501379
- Title: UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
- Title(参考訳): UniHDSA:階層型文書構造解析のための統一関係予測手法
- Authors: Jiawei Wang, Kai Hu, Qiang Huo,
- Abstract要約: 我々は、UniHDSAと呼ばれるHDSAの統一的な関係予測手法を提案する。
UniHDSAは、様々なHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合する。
UniHDSAの有効性を検証するために,Transformerアーキテクチャに基づくマルチモーダル・エンド・ツー・エンド・システムを開発した。
- 参考スコア(独自算出の注目度): 7.057192434574117
- License:
- Abstract: Document structure analysis, aka document layout analysis, is crucial for understanding both the physical layout and logical structure of documents, serving information retrieval, document summarization, knowledge extraction, etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to restore the hierarchical structure of documents created using authoring software with hierarchical schemas. Previous research has primarily followed two approaches: one focuses on tackling specific subtasks of HDSA in isolation, such as table detection or reading order prediction, while the other adopts a unified framework that uses multiple branches or modules, each designed to address a distinct task. In this work, we propose a unified relation prediction approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as relation prediction problems and consolidates relation prediction labels into a unified label space. This allows a single relation prediction module to handle multiple tasks simultaneously, whether at a page-level or document-level structure analysis. To validate the effectiveness of UniHDSA, we develop a multimodal end-to-end system based on Transformer architectures. Extensive experimental results demonstrate that our approach achieves state-of-the-art performance on a hierarchical document structure analysis benchmark, Comp-HRDoc, and competitive results on a large-scale document layout analysis dataset, DocLayNet, effectively illustrating the superiority of our method across all sub-tasks. The Comp-HRDoc benchmark and UniHDSA's configurations are publicly available at https://github.com/microsoft/CompHRDoc.
- Abstract(参考訳): 文書構造解析、いわゆる文書レイアウト解析は、文書の物理的レイアウトと論理的構造の両方を理解するために重要であり、情報検索、文書要約、知識抽出などを提供する。
階層型文書構造解析(HDSA)は、階層型スキーマを用いたオーサリングソフトウェアを用いて作成した文書の階層構造を復元することを目的としている。
テーブル検出や読み込み順序予測など、HDSAの特定のサブタスクを分離して扱うことに焦点を当てたものと、複数のブランチやモジュールを使用する統一されたフレームワークを採用しており、それぞれが異なるタスクに対処するように設計されている。
そこで本研究では,様々なHDSAサブタスクを関係予測問題として扱い,関係予測ラベルを統一ラベル空間に集約する,HDSAの統一関係予測手法UniHDSAを提案する。
これにより、ページレベルでもドキュメントレベルでも、単一の関係予測モジュールが複数のタスクを同時に処理できる。
UniHDSAの有効性を検証するために,Transformerアーキテクチャに基づくマルチモーダル・エンド・ツー・エンド・システムを開発した。
大規模文書レイアウト解析データセットであるDocLayNetでは,階層型文書構造解析ベンチマークであるComp-HRDocと競合する結果が得られた。
Comp-HRDocベンチマークとUniHDSAの設定はhttps://github.com/microsoft/CompHRDocで公開されている。
関連論文リスト
- Graph-based Document Structure Analysis [26.79096546002763]
本稿では,新しいグラフベース文書構造解析(gDSA)タスクを提案する。
このタスクでは、モデルが文書要素を検出するだけでなく、グラフ構造の形で空間的および論理的関係を生成する必要がある。
関係グラフに基づく文書構造解析データセット(GraphDoc)を80Kの文書画像と4.13Mの関連アノテーションで構築する。
論文 参考訳(メタデータ) (2025-02-04T17:16:14Z) - CAISSON: Concept-Augmented Inference Suite of Self-Organizing Neural Networks [0.0]
本稿では,レトリーバル・Augmented Generation(RAG)に対する新しい階層的アプローチであるCAISSONを紹介する。
CAISSONの中核は、文書空間の補完的な組織ビューを作成するために、二重自己組織化マップ(SOM)を活用している。
CAISSONを評価するために,合成財務分析ノートと質問応答ペアを生成するフレームワークであるSynFAQAを開発した。
論文 参考訳(メタデータ) (2024-12-03T21:00:10Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis [9.340346869932434]
本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-22T12:00:37Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Extracting Variable-Depth Logical Document Hierarchy from Long
Documents: Method, Evaluation, and Application [21.270184491603864]
我々は、長いドキュメント(HELD)から階層抽出(Hierarchy extract)というフレームワークを開発し、各物理オブジェクトを現在のツリーの適切な位置に「逐次」挿入する。
中国、イギリスの金融市場、イギリスの科学出版物から何千もの長い文書に基づく実験。
本稿では,下流経路検索タスクの性能向上に論理文書階層を用いる方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T06:26:22Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。