論文の概要: DocILE 2023 Teaser: Document Information Localization and Extraction
- arxiv url: http://arxiv.org/abs/2301.12394v1
- Date: Sun, 29 Jan 2023 09:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:15:32.899806
- Title: DocILE 2023 Teaser: Document Information Localization and Extraction
- Title(参考訳): DocILE 2023 ティーザー: 文書情報のローカライゼーションと抽出
- Authors: \v{S}t\v{e}p\'an \v{S}imsa, Milan \v{S}ulc, Maty\'a\v{s} Skalick\'y,
Yash Patel, Ahmed Hamdi
- Abstract要約: DocILE 2023コンペティションは、ビジネスドキュメントからキー情報ローカライゼーションと抽出(KILE)とラインアイテム認識(LIR)のタスクの最初の主要なベンチマークを実行する。
オープンソースから何千もの注釈付きの実際の文書、数十万の生成された合成文書、そして100万近いラベルのない文書によって、DocILEラボは、KILEとLIRのための公開データセットとして最大である。
- 参考スコア(独自算出の注目度): 2.044924272740424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of data for information extraction (IE) from semi-structured
business documents is a real problem for the IE community. Publications relying
on large-scale datasets use only proprietary, unpublished data due to the
sensitive nature of such documents. Publicly available datasets are mostly
small and domain-specific. The absence of a large-scale public dataset or
benchmark hinders the reproducibility and cross-evaluation of published
methods. The DocILE 2023 competition, hosted as a lab at the CLEF 2023
conference and as an ICDAR 2023 competition, will run the first major benchmark
for the tasks of Key Information Localization and Extraction (KILE) and Line
Item Recognition (LIR) from business documents. With thousands of annotated
real documents from open sources, a hundred thousand of generated synthetic
documents, and nearly a million unlabeled documents, the DocILE lab comes with
the largest publicly available dataset for KILE and LIR. We are looking forward
to contributions from the Computer Vision, Natural Language Processing,
Information Retrieval, and other communities. The data, baselines, code and
up-to-date information about the lab and competition are available at
https://docile.rossum.ai/.
- Abstract(参考訳): 半構造化ビジネス文書からの情報抽出(IE)のためのデータ不足は、IEコミュニティにとって真の問題である。
大規模なデータセットに依存する出版物は、そのような文書の機密性のため、プロプライエタリで未公開のデータのみを使用する。
公開データセットは主に小さく、ドメイン固有である。
大規模なパブリックデータセットやベンチマークの欠如は、公開メソッドの再現性と相互評価を妨げる。
CLEF 2023カンファレンスでラボとして開催され、ICDAR 2023コンペティションとして開催されているDocILE 2023コンペティションは、ビジネス文書からキー情報ローカライゼーションと抽出(KILE)とラインアイテム認識(LIR)のタスクの最初のメジャーベンチマークを実行する。
オープンソースから何千もの注釈入りの実際の文書、数十万の生成された合成文書、100万近いラベルなしの文書によって、DocILE研究所はKILEとLIRのための公開データセットとして最大である。
我々はコンピュータビジョン、自然言語処理、情報検索などのコミュニティからの貢献を楽しみにしています。
ラボと競争に関するデータ、ベースライン、コード、最新の情報はhttps://docile.rossum.ai/で入手できる。
関連論文リスト
- DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Business Document Information Extraction: Towards Practical Benchmarks [0.0]
本稿では,文書情報抽出問題,データセット,ベンチマークの状況について概観する。
共通定義に欠けている実践的側面を強調し,鍵情報局所化・抽出(KILE)問題とラインアイテム認識(LIR)問題を定義する。
通常、コンテンツは法的に保護されているか、センシティブであるので、半構造化のビジネス文書にドキュメントIEに関する関連するデータセットとベンチマークが欠如しています。
論文 参考訳(メタデータ) (2022-06-20T15:23:49Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。
競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。
本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文 参考訳(メタデータ) (2021-03-18T12:33:41Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。