論文の概要: Kleister: Key Information Extraction Datasets Involving Long Documents
with Complex Layouts
- arxiv url: http://arxiv.org/abs/2105.05796v1
- Date: Wed, 12 May 2021 17:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:26:55.129811
- Title: Kleister: Key Information Extraction Datasets Involving Long Documents
with Complex Layouts
- Title(参考訳): kleister: 複雑なレイアウトを持つ長いドキュメントを含むキー情報抽出データセット
- Authors: Tomasz Stanis{\l}awek and Filip Grali\'nski and Anna Wr\'oblewska and
Dawid Lipi\'nski and Agnieszka Kaliska and Paulina Rosalska and Bartosz
Topolski and Przemys{\l}aw Biecek
- Abstract要約: 2つの新しいデータセット(Kleister NDAとKleister Charity)を紹介します。
スキャンされ、デジタル化された長い英語の文書が混在している。
これらのデータセットでは、NLPシステムは様々な種類のエンティティを発見または推測することが期待される。
- 参考スコア(独自算出の注目度): 2.2955055920798433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The relevance of the Key Information Extraction (KIE) task is increasingly
important in natural language processing problems. But there are still only a
few well-defined problems that serve as benchmarks for solutions in this area.
To bridge this gap, we introduce two new datasets (Kleister NDA and Kleister
Charity). They involve a mix of scanned and born-digital long formal
English-language documents. In these datasets, an NLP system is expected to
find or infer various types of entities by employing both textual and
structural layout features. The Kleister Charity dataset consists of 2,788
annual financial reports of charity organizations, with 61,643 unique pages and
21,612 entities to extract. The Kleister NDA dataset has 540 Non-disclosure
Agreements, with 3,229 unique pages and 2,160 entities to extract. We provide
several state-of-the-art baseline systems from the KIE domain (Flair, BERT,
RoBERTa, LayoutLM, LAMBERT), which show that our datasets pose a strong
challenge to existing models. The best model achieved an 81.77% and an 83.57%
F1-score on respectively the Kleister NDA and the Kleister Charity datasets. We
share the datasets to encourage progress on more in-depth and complex
information extraction tasks.
- Abstract(参考訳): キー情報抽出(KIE)タスクの関連性は、自然言語処理問題においてますます重要である。
しかし、この分野のソリューションのベンチマークとして機能する問題は、まだいくつかある。
このギャップを埋めるために、2つの新しいデータセット(Kleister NDAとKleister Charity)を導入します。
スキャンされ、デジタル化された長い英語の文書が混在している。
これらのデータセットにおいて、NLPシステムは、テキストと構造的レイアウトの両方の機能を用いて、様々なタイプのエンティティを発見または推測することが期待されている。
クライスター・チャリティのデータセットは、2,788の慈善団体の年次財務報告と61,643のユニークなページ、21,612のエンティティで構成されている。
Kleister NDAデータセットには540の非開示協定があり、3,229のユニークなページと2,160のエンティティが抽出されている。
我々は、KIEドメイン(Flair, BERT, RoBERTa, LayoutLM, LAMBERT)からの最先端のベースラインシステムを提供し、我々のデータセットが既存のモデルに強力な課題をもたらすことを示す。
最良のモデルは kleister nda と kleister charity データセットでそれぞれ 81.77% と 83.57% の f1-score を達成した。
データセットを共有し、より深く複雑な情報抽出タスクの進捗を促進する。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - KVP10k : A Comprehensive Dataset for Key-Value Pair Extraction in Business Documents [8.432909947794874]
我々はキー-値ペア(KVP)抽出用に特別に設計された新しいデータセットとベンチマークであるKVP10kを紹介する。
データセットには、リッチな注釈付き画像10707が含まれている。
我々のベンチマークでは、KIEの要素とKVPを1つのタスクで組み合わせた新しい挑戦的なタスクも導入しています。
論文 参考訳(メタデータ) (2024-05-01T13:37:27Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - CinPatent: Datasets for Patent Classification [4.3187100116167025]
我々は、CPCコードを用いて収集した英語と日本語の2つの新しいデータセットを紹介した。
英語データセットには45,131の特許文書と425のラベルがあり、日本語データセットには54,657のドキュメントと523のラベルが含まれている。
本研究では,2つのデータセット上での強いマルチラベルテキスト分類手法の性能を比較した。
論文 参考訳(メタデータ) (2022-12-23T08:23:32Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - LAMBERT: Layout-Aware (Language) Modeling for information extraction [2.5907188217412456]
本稿では,非自明なレイアウトが局所的意味論に影響を及ぼす文書理解問題に対する新しいアプローチを提案する。
我々は、OCRシステムから得られたレイアウト機能を使用できるように、Transformerエンコーダアーキテクチャを変更した。
視覚的にリッチな文書からなるデータセットにおいて,本モデルが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-02-19T09:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。