Fugu-MT 論文翻訳(概要): Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis

論文の概要: Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis

arxiv url: http://arxiv.org/abs/2401.11874v2
Date: Thu, 28 Mar 2024 08:40:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 21:02:36.371836
Title: Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis
Title（参考訳）: Detect-Order-Construct:階層型文書構造解析のための木構築に基づくアプローチ
Authors: Jiawei Wang, Kai Hu, Zhuoyao Zhong, Lei Sun, Qiang Huo,
Abstract要約: 本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
参考スコア（独自算出の注目度）: 9.340346869932434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Document structure analysis (aka document layout analysis) is crucial for understanding the physical layout and logical structure of documents, with applications in information retrieval, document summarization, knowledge extraction, etc. In this paper, we concentrate on Hierarchical Document Structure Analysis (HDSA) to explore hierarchical relationships within structured documents created using authoring software employing hierarchical schemas, such as LaTeX, Microsoft Word, and HTML. To comprehensively analyze hierarchical document structures, we propose a tree construction based approach that addresses multiple subtasks concurrently, including page object detection (Detect), reading order prediction of identified objects (Order), and the construction of intended hierarchical structure (Construct). We present an effective end-to-end solution based on this framework to demonstrate its performance. To assess our approach, we develop a comprehensive benchmark called Comp-HRDoc, which evaluates the above subtasks simultaneously. Our end-to-end system achieves state-of-the-art performance on two large-scale document layout analysis datasets (PubLayNet and DocLayNet), a high-quality hierarchical document structure reconstruction dataset (HRDoc), and our Comp-HRDoc benchmark. The Comp-HRDoc benchmark will be released to facilitate further research in this field.
Abstract（参考訳）: 文書構造解析(いわゆる文書レイアウト解析)は,文書の物理的レイアウトや論理構造を理解する上で重要であり,情報検索,文書要約,知識抽出などにも応用されている。本稿では,階層型文書構造解析(HDSA)に集中して,LaTeX,Microsoft Word,HTMLなどの階層型スキーマを用いたオーサリングソフトウェアを用いて作成した構造化文書内の階層的関係を探索する。階層的な文書構造を包括的に解析するために,ページオブジェクト検出(Detect),識別されたオブジェクトの順序予測(Order),意図された階層構造の構築(Construct)など,複数のサブタスクを同時に処理する木構築ベースアプローチを提案する。このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。提案手法を評価するために,上述のサブタスクを同時に評価するComp-HRDocという総合ベンチマークを開発した。我々のエンドツーエンドシステムは,2つの大規模文書レイアウト解析データセット(PubLayNetとDocLayNet),高品質な階層的文書構造再構築データセット(HRDoc),およびComp-HRDocベンチマークに対して,最先端のパフォーマンスを実現する。 Comp-HRDocベンチマークは、この分野のさらなる研究を促進するためにリリースされる予定である。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding [30.54420648726099]
文書レベルの構造文書MAPは、階層的組織と多モード文書内の要素間関係の両方を符号化する。この表現に基づいて、リフレクティブ推論エージェントは構造認識およびエビデンス駆動推論を実行する。 MMDocQAベンチマークの実験では、DMAPが文書固有の構造表現を人間の解釈パターンと一致させることが示されている。
論文参考訳（メタデータ） (2026-01-26T06:38:25Z)
BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。 BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-12-03T03:40:49Z)
DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis [7.057192434574117]
我々は、UniHDSAと呼ばれるHDSAの統一的な関係予測手法を提案する。 UniHDSAは、様々なHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合する。 UniHDSAの有効性を検証するために,Transformerアーキテクチャに基づくマルチモーダル・エンド・ツー・エンド・システムを開発した。
論文参考訳（メタデータ） (2025-03-20T06:44:47Z)
ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文参考訳（メタデータ） (2025-02-11T21:35:13Z)
Graph-based Document Structure Analysis [26.79096546002763]
本稿では,新しいグラフベース文書構造解析(gDSA)タスクを提案する。このタスクでは、モデルが文書要素を検出するだけでなく、グラフ構造の形で空間的および論理的関係を生成する必要がある。関係グラフに基づく文書構造解析データセット(GraphDoc)を80Kの文書画像と4.13Mの関連アノテーションで構築する。
論文参考訳（メタデータ） (2025-02-04T17:16:14Z)
Seg2Act: Global Context-aware Action Generation for Document Logical Structuring [45.55145491566147]
文書論理構造化のためのエンドツーエンドな生成手法であるSeg2Actを紹介する。 Seg2Actは、グローバルコンテキスト認識生成モデルを介してアクションシーケンスを反復的に生成し、そのグローバルコンテキストと現在の論理構造を同時に更新する。 ChCatExtとHierDocデータセットの実験は、教師付きおよび転送学習設定の両方において、Seg2Actの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-09T11:58:40Z)
HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文参考訳（メタデータ） (2024-07-11T09:28:04Z)
SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。 SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文参考訳（メタデータ） (2024-06-13T02:35:55Z)
DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文参考訳（メタデータ） (2024-05-20T03:34:24Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文参考訳（メタデータ） (2023-03-24T07:23:56Z)
Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文参考訳（メタデータ） (2022-08-22T07:22:05Z)
Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-24T00:49:19Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)
DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文参考訳（メタデータ） (2020-06-01T16:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。