論文の概要: DocILE 2023 Teaser: Document Information Localization and Extraction
- arxiv url: http://arxiv.org/abs/2301.12394v1
- Date: Sun, 29 Jan 2023 09:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:15:32.899806
- Title: DocILE 2023 Teaser: Document Information Localization and Extraction
- Title(参考訳): DocILE 2023 ティーザー: 文書情報のローカライゼーションと抽出
- Authors: \v{S}t\v{e}p\'an \v{S}imsa, Milan \v{S}ulc, Maty\'a\v{s} Skalick\'y,
Yash Patel, Ahmed Hamdi
- Abstract要約: DocILE 2023コンペティションは、ビジネスドキュメントからキー情報ローカライゼーションと抽出(KILE)とラインアイテム認識(LIR)のタスクの最初の主要なベンチマークを実行する。
オープンソースから何千もの注釈付きの実際の文書、数十万の生成された合成文書、そして100万近いラベルのない文書によって、DocILEラボは、KILEとLIRのための公開データセットとして最大である。
- 参考スコア(独自算出の注目度): 2.044924272740424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of data for information extraction (IE) from semi-structured
business documents is a real problem for the IE community. Publications relying
on large-scale datasets use only proprietary, unpublished data due to the
sensitive nature of such documents. Publicly available datasets are mostly
small and domain-specific. The absence of a large-scale public dataset or
benchmark hinders the reproducibility and cross-evaluation of published
methods. The DocILE 2023 competition, hosted as a lab at the CLEF 2023
conference and as an ICDAR 2023 competition, will run the first major benchmark
for the tasks of Key Information Localization and Extraction (KILE) and Line
Item Recognition (LIR) from business documents. With thousands of annotated
real documents from open sources, a hundred thousand of generated synthetic
documents, and nearly a million unlabeled documents, the DocILE lab comes with
the largest publicly available dataset for KILE and LIR. We are looking forward
to contributions from the Computer Vision, Natural Language Processing,
Information Retrieval, and other communities. The data, baselines, code and
up-to-date information about the lab and competition are available at
https://docile.rossum.ai/.
- Abstract(参考訳): 半構造化ビジネス文書からの情報抽出(IE)のためのデータ不足は、IEコミュニティにとって真の問題である。
大規模なデータセットに依存する出版物は、そのような文書の機密性のため、プロプライエタリで未公開のデータのみを使用する。
公開データセットは主に小さく、ドメイン固有である。
大規模なパブリックデータセットやベンチマークの欠如は、公開メソッドの再現性と相互評価を妨げる。
CLEF 2023カンファレンスでラボとして開催され、ICDAR 2023コンペティションとして開催されているDocILE 2023コンペティションは、ビジネス文書からキー情報ローカライゼーションと抽出(KILE)とラインアイテム認識(LIR)のタスクの最初のメジャーベンチマークを実行する。
オープンソースから何千もの注釈入りの実際の文書、数十万の生成された合成文書、100万近いラベルなしの文書によって、DocILE研究所はKILEとLIRのための公開データセットとして最大である。
我々はコンピュータビジョン、自然言語処理、情報検索などのコミュニティからの貢献を楽しみにしています。
ラボと競争に関するデータ、ベースライン、コード、最新の情報はhttps://docile.rossum.ai/で入手できる。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文 参考訳(メタデータ) (2024-04-30T04:53:10Z) - RealKIE: Five Novel Datasets for Enterprise Key Information Extraction [0.0]
RealKIEは、キー情報抽出手法の進歩を目的とした、5つの挑戦的なデータセットのベンチマークである。
データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。
論文 参考訳(メタデータ) (2024-03-29T10:31:32Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Business Document Information Extraction: Towards Practical Benchmarks [0.0]
本稿では,文書情報抽出問題,データセット,ベンチマークの状況について概観する。
共通定義に欠けている実践的側面を強調し,鍵情報局所化・抽出(KILE)問題とラインアイテム認識(LIR)問題を定義する。
通常、コンテンツは法的に保護されているか、センシティブであるので、半構造化のビジネス文書にドキュメントIEに関する関連するデータセットとベンチマークが欠如しています。
論文 参考訳(メタデータ) (2022-06-20T15:23:49Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。