論文の概要: FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and
Understanding
- arxiv url: http://arxiv.org/abs/2311.11856v1
- Date: Mon, 20 Nov 2023 15:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:15:20.343784
- Title: FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and
Understanding
- Title(参考訳): FATURA:文書分析・理解のための多層請求書画像データセット
- Authors: Mahmoud Limam, Marwa Dhiaf, Yousri Kessentini
- Abstract要約: 本稿では,文書分析と理解の分野における研究者のための重要な資料であるFATURAを紹介する。
FATURAは、マルチアノテーションによる請求書の文書イメージを特徴とする、非常に多様なデータセットである。
各種文書分析・理解タスクの総合的なベンチマークを行い,多様な訓練・評価シナリオ下で実験を行う。
- 参考スコア(独自算出の注目度): 8.855033708082832
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document analysis and understanding models often require extensive annotated
data to be trained. However, various document-related tasks extend beyond mere
text transcription, requiring both textual content and precise bounding-box
annotations to identify different document elements. Collecting such data
becomes particularly challenging, especially in the context of invoices, where
privacy concerns add an additional layer of complexity. In this paper, we
introduce FATURA, a pivotal resource for researchers in the field of document
analysis and understanding. FATURA is a highly diverse dataset featuring
multi-layout, annotated invoice document images. Comprising $10,000$ invoices
with $50$ distinct layouts, it represents the largest openly accessible image
dataset of invoice documents known to date. We also provide comprehensive
benchmarks for various document analysis and understanding tasks and conduct
experiments under diverse training and evaluation scenarios. The dataset is
freely accessible at https://zenodo.org/record/8261508, empowering researchers
to advance the field of document analysis and understanding.
- Abstract(参考訳): ドキュメント分析と理解モデルには、トレーニングに必要な広範な注釈データが必要になることが多い。
しかし、文書関連タスクはテキストの書き起こしを超えて、異なる文書要素を特定するためにテキストコンテンツと正確なバウンディングボックスアノテーションの両方を必要とする。
このようなデータ収集は特に請求書のコンテキストにおいて特に困難になり、プライバシーに関する懸念がさらに複雑さを増す。
本稿では,文書分析と理解の分野における研究者のための重要なリソースであるFATURAを紹介する。
FATURAは、マルチレイアウト、注釈付き請求書文書画像を含む非常に多様なデータセットである。
1万ドルの請求書と50ドルの異なるレイアウトで構成されており、現在知られている請求書の最大の画像データセットである。
また,様々な文書分析・理解タスクのための包括的なベンチマークを提供し,様々な訓練・評価シナリオで実験を行う。
データセットはhttps://zenodo.org/record/8261508で自由にアクセスでき、研究者が文書分析と理解の分野を前進させることができる。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。