論文の概要: DocBank: A Benchmark Dataset for Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2006.01038v3
- Date: Wed, 11 Nov 2020 05:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:07:25.561306
- Title: DocBank: A Benchmark Dataset for Document Layout Analysis
- Title(参考訳): DocBank: ドキュメントレイアウト分析のためのベンチマークデータセット
- Authors: Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li,
Ming Zhou
- Abstract要約: 文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
- 参考スコア(独自算出の注目度): 114.81155155508083
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document layout analysis usually relies on computer vision models to
understand documents while ignoring textual information that is vital to
capture. Meanwhile, high quality labeled datasets with both visual and textual
information are still insufficient. In this paper, we present \textbf{DocBank},
a benchmark dataset that contains 500K document pages with fine-grained
token-level annotations for document layout analysis. DocBank is constructed
using a simple yet effective way with weak supervision from the \LaTeX{}
documents available on the arXiv.com. With DocBank, models from different
modalities can be compared fairly and multi-modal approaches will be further
investigated and boost the performance of document layout analysis. We build
several strong baselines and manually split train/dev/test sets for evaluation.
Experiment results show that models trained on DocBank accurately recognize the
layout information for a variety of documents. The DocBank dataset is publicly
available at \url{https://github.com/doc-analysis/DocBank}.
- Abstract(参考訳): 文書レイアウト分析は通常、文書を理解するのにコンピュータビジョンモデルに依存し、キャプチャーに不可欠なテキスト情報を無視する。
一方、視覚情報とテキスト情報の両方を備えた高品質なラベル付きデータセットはまだ不十分である。
本稿では,ドキュメントレイアウト解析のための詳細なトークンレベルのアノテーションを備えた,500万のドキュメントページを含むベンチマークデータセットである \textbf{docbank} を提案する。
DocBank は arXiv.com で利用可能な \LaTeX{} ドキュメントの監督が弱い、シンプルだが効果的な方法で構築されている。
DocBankでは、異なるモダリティのモデルを公平に比較することができ、マルチモーダルアプローチをさらに検討し、文書レイアウト解析の性能を向上させる。
いくつかの強力なベースラインを構築し、評価のために手動でトレイン/デベロップメント/テストセットを分割します。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
DocBankデータセットは、 \url{https://github.com/doc-analysis/DocBank}で公開されている。
関連論文リスト
- Detect-Order-Construct: A Tree Construction based Approach for
Hierarchical Document Structure Analysis [10.020753349423844]
本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-22T12:00:37Z) - FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and
Understanding [8.855033708082832]
本稿では,文書分析と理解の分野における研究者のための重要な資料であるFATURAを紹介する。
FATURAは、マルチアノテーションによる請求書の文書イメージを特徴とする、非常に多様なデータセットである。
各種文書分析・理解タスクの総合的なベンチマークを行い,多様な訓練・評価シナリオ下で実験を行う。
論文 参考訳(メタデータ) (2023-11-20T15:51:14Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文 参考訳(メタデータ) (2022-06-02T14:25:12Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。