論文の概要: DSG: An End-to-End Document Structure Generator
- arxiv url: http://arxiv.org/abs/2310.09118v1
- Date: Fri, 13 Oct 2023 14:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:03:07.357159
- Title: DSG: An End-to-End Document Structure Generator
- Title(参考訳): DSG: エンドツーエンドのドキュメント構造生成装置
- Authors: Johannes Rausch and Gentiana Rashiti and Maxim Gusev and Ce Zhang and
Stefan Feuerriegel
- Abstract要約: Document Structure Generator (DSG) は、完全にエンドツーエンドのトレーニングが可能な文書解析のための新しいシステムである。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 32.040520771901996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information in industry, research, and the public sector is widely stored as
rendered documents (e.g., PDF files, scans). Hence, to enable downstream tasks,
systems are needed that map rendered documents onto a structured hierarchical
format. However, existing systems for this task are limited by heuristics and
are not end-to-end trainable. In this work, we introduce the Document Structure
Generator (DSG), a novel system for document parsing that is fully end-to-end
trainable. DSG combines a deep neural network for parsing (i) entities in
documents (e.g., figures, text blocks, headers, etc.) and (ii) relations that
capture the sequence and nested structure between entities. Unlike existing
systems that rely on heuristics, our DSG is trained end-to-end, making it
effective and flexible for real-world applications. We further contribute a
new, large-scale dataset called E-Periodica comprising real-world magazines
with complex document structures for evaluation. Our results demonstrate that
our DSG outperforms commercial OCR tools and, on top of that, achieves
state-of-the-art performance. To the best of our knowledge, our DSG system is
the first end-to-end trainable system for hierarchical document parsing.
- Abstract(参考訳): 産業、研究、公共部門の情報は、文書(pdfファイル、スキャンなど)として広く保存されている。
したがって、下流タスクを有効にするには、文書を構造化階層形式にマッピングするシステムが必要である。
しかし、このタスクの既存のシステムはヒューリスティックによって制限され、エンドツーエンドのトレーニングはできない。
本稿では,文書解析システムである文書構造生成装置(DSG)について紹介する。
DSGはパースのためのディープニューラルネットワークを組み合わせる
(i)書類の実体(図、テキストブロック、ヘッダー等)
(ii)エンティティ間のシーケンスとネスト構造をキャプチャする関係。
ヒューリスティックスに依存している既存のシステムとは異なり、DSGはエンドツーエンドでトレーニングされており、現実世界のアプリケーションに効果的で柔軟です。
さらに、評価のための複雑な文書構造を持つ実世界の雑誌からなる、E-Periodicaと呼ばれる新しい大規模データセットをコントリビュートする。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
我々の知る限り、DSGシステムは階層的な文書解析のための最初のエンドツーエンドのトレーニングシステムである。
関連論文リスト
- HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - Document Structure in Long Document Transformers [64.76981299465885]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。
文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。
長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか?
事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-01-31T08:28:06Z) - Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis [9.340346869932434]
本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-22T12:00:37Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Enhancing Performance on Seen and Unseen Dialogue Scenarios using
Retrieval-Augmented End-to-End Task-Oriented System [89.40590076430297]
この作業により、単純なキャッシュを通じてより柔軟性のあるTODシステムが可能になる。
我々は,TOD生成中に対話履歴と検索情報の両方を参照・基盤にできるエンドツーエンドTODモデルを訓練する。
非空共同ゴール精度を6.7%向上させるなど,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-08-16T06:52:10Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Capturing Logical Structure of Visually Structured Documents with
Multimodal Transition Parser [39.75232199445175]
フラグメントを木にマップするテキストフラグメント間の遷移ラベルの予測として,タスクの定式化を提案する。
視覚,テキスト,意味を融合した特徴ベース機械学習システムを開発した。
本システムでは,F1スコア0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコア0.951を得た。
論文 参考訳(メタデータ) (2021-05-01T02:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。