論文の概要: DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis
- arxiv url: http://arxiv.org/abs/2206.01062v1
- Date: Thu, 2 Jun 2022 14:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:52:02.374968
- Title: DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis
- Title(参考訳): DocLayNet: ドキュメントレイアウト分析のための大規模人間アノテーションデータセット
- Authors: Birgit Pfitzmann, Christoph Auer, Michele Dolfi, Ahmed S Nassar, Peter
W J Staar
- Abstract要約: 文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
- 参考スコア(独自算出の注目度): 2.9923891863939938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate document layout analysis is a key requirement for high-quality PDF
document conversion. With the recent availability of public, large ground-truth
datasets such as PubLayNet and DocBank, deep-learning models have proven to be
very effective at layout detection and segmentation. While these datasets are
of adequate size to train such models, they severely lack in layout variability
since they are sourced from scientific article repositories such as PubMed and
arXiv only. Consequently, the accuracy of the layout segmentation drops
significantly when these models are applied on more challenging and diverse
layouts. In this paper, we present \textit{DocLayNet}, a new, publicly
available, document-layout annotation dataset in COCO format. It contains 80863
manually annotated pages from diverse data sources to represent a wide
variability in layouts. For each PDF page, the layout annotations provide
labelled bounding-boxes with a choice of 11 distinct classes. DocLayNet also
provides a subset of double- and triple-annotated pages to determine the
inter-annotator agreement. In multiple experiments, we provide baseline
accuracy scores (in mAP) for a set of popular object detection models. We also
demonstrate that these models fall approximately 10\% behind the
inter-annotator agreement. Furthermore, we provide evidence that DocLayNet is
of sufficient size. Lastly, we compare models trained on PubLayNet, DocBank and
DocLayNet, showing that layout predictions of the DocLayNet-trained models are
more robust and thus the preferred choice for general-purpose document-layout
analysis.
- Abstract(参考訳): 高精度な文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
publaynetやdocbankのような、最近一般公開された大規模な地上データセットにより、ディープラーニングモデルはレイアウト検出やセグメンテーションに非常に効果的であることが証明されている。
これらのデータセットはそのようなモデルをトレーニングするのに十分なサイズであるが、PubMedやarXivのような科学論文リポジトリから得られるため、レイアウトのばらつきは極めて少ない。
その結果、これらのモデルがより困難で多様なレイアウトに適用されると、レイアウトセグメンテーションの精度は大幅に低下する。
本稿では,coco形式で新たに利用可能な文書レイアウトアノテーションデータセットである \textit{doclaynet} を提案する。
80863ページをさまざまなデータソースから手動でアノテートし、レイアウトの多様性を表現している。
PDFページごとに、レイアウトアノテーションは11の異なるクラスを選択したラベル付きバウンディングボックスを提供する。
DocLayNetは、アノテーション間の合意を決定するために、ダブルおよびトリプルのアノテーション付きページのサブセットも提供している。
複数の実験において、一般的なオブジェクト検出モデルのセットに対して、ベースライン精度スコア(mAP)を提供する。
また,これらのモデルがアノテーション間合意よりも約10\%遅れていることも示している。
さらに、DocLayNetが十分なサイズであることを示す。
最後に、PubLayNet、DocBank、DocLayNetでトレーニングされたモデルを比較し、DocLayNetでトレーニングされたモデルのレイアウト予測がより堅牢であることを示し、汎用ドキュメントレイアウト分析に好適な選択であることを示す。
関連論文リスト
- Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。
本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文 参考訳(メタデータ) (2024-05-08T10:10:38Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。