論文の概要: Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs
- arxiv url: http://arxiv.org/abs/2306.10046v1
- Date: Mon, 12 Jun 2023 08:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:37:24.131195
- Title: Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs
- Title(参考訳): 文書レイアウトアノテーション:公務領域におけるデータベースとベンチマーク
- Authors: Alejandro Pe\~na, Aythami Morales, Julian Fierrez, Javier
Ortega-Garcia, Marcos Grande, I\~nigo Puente, Jorge Cordova, Gonzalo Cordova
- Abstract要約: レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
- 参考スコア(独自算出の注目度): 62.38140271294419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every day, thousands of digital documents are generated with useful
information for companies, public organizations, and citizens. Given the
impossibility of processing them manually, the automatic processing of these
documents is becoming increasingly necessary in certain sectors. However, this
task remains challenging, since in most cases a text-only based parsing is not
enough to fully understand the information presented through different
components of varying significance. In this regard, Document Layout Analysis
(DLA) has been an interesting research field for many years, which aims to
detect and classify the basic components of a document. In this work, we used a
procedure to semi-automatically annotate digital documents with different
layout labels, including 4 basic layout blocks and 4 text categories. We apply
this procedure to collect a novel database for DLA in the public affairs
domain, using a set of 24 data sources from the Spanish Administration. The
database comprises 37.9K documents with more than 441K document pages, and more
than 8M labels associated to 8 layout block units. The results of our
experiments validate the proposed text labeling procedure with accuracy up to
99%.
- Abstract(参考訳): 毎日何千ものデジタル文書が、企業、公共団体、市民に有用な情報と共に生成される。
手動で処理できないことを考えると、これらの文書の自動処理は特定の分野においてますます必要となってきている。
しかし、ほとんどの場合、テキストのみの構文解析では、様々な意味を持つ異なるコンポーネントを通して提示される情報を十分に理解できないため、この課題は依然として困難なままである。
このような観点から、文書レイアウト分析(Document Layout Analysis, DLA)は、文書の基本コンポーネントを検出し分類することを目的とした、長年にわたる興味深い研究分野である。
本研究では4つの基本レイアウトブロックと4つのテキストカテゴリを含む,異なるレイアウトラベルを持つデジタル文書をセミオートマチックにアノテートする手法を用いた。
本稿では,スペイン政府から24件のデータソースを用いて,行政領域におけるDLAの新しいデータベースの収集に本手法を適用した。
データベースは、37.9Kドキュメントと441Kドキュメントページと、8Mラベルが8つのレイアウトブロックユニットに関連付けられている。
実験の結果,提案するテキストラベリング手順を最大99%の精度で検証した。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and
Understanding [8.855033708082832]
本稿では,文書分析と理解の分野における研究者のための重要な資料であるFATURAを紹介する。
FATURAは、マルチアノテーションによる請求書の文書イメージを特徴とする、非常に多様なデータセットである。
各種文書分析・理解タスクの総合的なベンチマークを行い,多様な訓練・評価シナリオ下で実験を行う。
論文 参考訳(メタデータ) (2023-11-20T15:51:14Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset [1.2015699532079325]
このデータセットには、6つのドメインから33,695人の注釈付き文書サンプルが含まれている。
深層学習に基づくベンガル文書モデルのトレーニングにおけるデータセットの有効性を示す。
論文 参考訳(メタデータ) (2023-03-09T15:15:55Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。