論文の概要: RealKIE: Five Novel Datasets for Enterprise Key Information Extraction
- arxiv url: http://arxiv.org/abs/2403.20101v1
- Date: Fri, 29 Mar 2024 10:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:54:04.677756
- Title: RealKIE: Five Novel Datasets for Enterprise Key Information Extraction
- Title(参考訳): RealKIE: エンタープライズキー情報抽出のための5つの新しいデータセット
- Authors: Benjamin Townsend, Madison May, Christopher Wells,
- Abstract要約: RealKIEは、キー情報抽出手法の進歩を目的とした、5つの挑戦的なデータセットのベンチマークである。
データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RealKIE, a benchmark of five challenging datasets aimed at advancing key information extraction methods, with an emphasis on enterprise applications. The datasets include a diverse range of documents including SEC S1 Filings, US Non-disclosure Agreements, UK Charity Reports, FCC Invoices, and Resource Contracts. Each presents unique challenges: poor text serialization, sparse annotations in long documents, and complex tabular layouts. These datasets provide a realistic testing ground for key information extraction tasks like investment analysis and legal data processing. In addition to presenting these datasets, we offer an in-depth description of the annotation process, document processing techniques, and baseline modeling approaches. This contribution facilitates the development of NLP models capable of handling practical challenges and supports further research into information extraction technologies applicable to industry-specific problems. The annotated data and OCR outputs are available to download at https://indicodatasolutions.github.io/RealKIE/ code to reproduce the baselines will be available shortly.
- Abstract(参考訳): 企業アプリケーションに重点を置いたキー情報抽出手法の進歩を目的とした,5つの挑戦的データセットのベンチマークであるRealKIEを紹介する。
データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。
それぞれの課題は、テキストシリアライゼーションの貧弱さ、長いドキュメントのスパースアノテーション、複雑な表レイアウトである。
これらのデータセットは、投資分析や法的データ処理といった重要な情報抽出タスクの現実的なテスト基盤を提供する。
これらのデータセットの提示に加えて、アノテーションプロセス、文書処理技術、ベースラインモデリングアプローチの詳細な説明を提供する。
この貢献により、実践的な課題に対処できるNLPモデルの開発が促進され、産業固有の問題に適用可能な情報抽出技術のさらなる研究を支援する。
注釈付きデータとOCR出力はhttps://indicodatasolutions.github.io/RealKIE/コードからダウンロードできる。
関連論文リスト
- KVP10k : A Comprehensive Dataset for Key-Value Pair Extraction in Business Documents [8.432909947794874]
我々はキー-値ペア(KVP)抽出用に特別に設計された新しいデータセットとベンチマークであるKVP10kを紹介する。
データセットには、リッチな注釈付き画像10707が含まれている。
我々のベンチマークでは、KIEの要素とKVPを1つのタスクで組み合わせた新しい挑戦的なタスクも導入しています。
論文 参考訳(メタデータ) (2024-05-01T13:37:27Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。
競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。
本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文 参考訳(メタデータ) (2021-03-18T12:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。