Fugu-MT 論文翻訳(概要): RealKIE: Five Novel Datasets for Enterprise Key Information Extraction

論文の概要: RealKIE: Five Novel Datasets for Enterprise Key Information Extraction

arxiv url: http://arxiv.org/abs/2403.20101v1
Date: Fri, 29 Mar 2024 10:31:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 15:54:04.677756
Title: RealKIE: Five Novel Datasets for Enterprise Key Information Extraction
Title（参考訳）: RealKIE: エンタープライズキー情報抽出のための5つの新しいデータセット
Authors: Benjamin Townsend, Madison May, Christopher Wells,
Abstract要約: RealKIEは、キー情報抽出手法の進歩を目的とした、5つの挑戦的なデータセットのベンチマークである。データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce RealKIE, a benchmark of five challenging datasets aimed at advancing key information extraction methods, with an emphasis on enterprise applications. The datasets include a diverse range of documents including SEC S1 Filings, US Non-disclosure Agreements, UK Charity Reports, FCC Invoices, and Resource Contracts. Each presents unique challenges: poor text serialization, sparse annotations in long documents, and complex tabular layouts. These datasets provide a realistic testing ground for key information extraction tasks like investment analysis and legal data processing. In addition to presenting these datasets, we offer an in-depth description of the annotation process, document processing techniques, and baseline modeling approaches. This contribution facilitates the development of NLP models capable of handling practical challenges and supports further research into information extraction technologies applicable to industry-specific problems. The annotated data and OCR outputs are available to download at https://indicodatasolutions.github.io/RealKIE/ code to reproduce the baselines will be available shortly.
Abstract（参考訳）: 企業アプリケーションに重点を置いたキー情報抽出手法の進歩を目的とした,5つの挑戦的データセットのベンチマークであるRealKIEを紹介する。データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。それぞれの課題は、テキストシリアライゼーションの貧弱さ、長いドキュメントのスパースアノテーション、複雑な表レイアウトである。これらのデータセットは、投資分析や法的データ処理といった重要な情報抽出タスクの現実的なテスト基盤を提供する。これらのデータセットの提示に加えて、アノテーションプロセス、文書処理技術、ベースラインモデリングアプローチの詳細な説明を提供する。この貢献により、実践的な課題に対処できるNLPモデルの開発が促進され、産業固有の問題に適用可能な情報抽出技術のさらなる研究を支援する。注釈付きデータとOCR出力はhttps://indicodatasolutions.github.io/RealKIE/コードからダウンロードできる。

関連論文リスト

UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents [65.14244917622881]
近年の大規模マルチモーダルモデルでは,文書画像から直接,エンドツーエンドのKIEを実行する可能性が高まっている。我々は,LMMのKIE能力を厳格に評価するベンチマークであるUNIKIE-BENCHを紹介する。 15の最先端のLMMの実験では、多様なスキーマ定義、ロングテールキーフィールド、複雑なレイアウトの下での大幅な性能低下が示されている。
論文参考訳（メタデータ） (2026-02-03T12:04:56Z)
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。 LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文参考訳（メタデータ） (2026-01-05T23:23:16Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
VRD-IU: Lessons from Visually Rich Document Intelligence and Understanding [11.588271855615556]
Visually Rich Document Understanding (VRDU)は、文書インテリジェンスにおいて重要な分野として登場した。フォームライクなドキュメントは、複雑なレイアウト、マルチステークホルダーの関与、高い構造的多様性のために、ユニークな課題を提起します。 VRD-IUコンペティション(VRD-IUコンペティション)は、マルチフォーマットフォームからキー情報を抽出し、ローカライズすることに焦点を当てている。
論文参考訳（メタデータ） (2025-06-02T07:28:28Z)
A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-31T23:55:41Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
Integrating Large Language Models and Knowledge Graphs for Extraction and Validation of Textual Test Data [3.114910206366326]
タレス・アレニア・スペース (Thales Alenia Space) のような航空宇宙製造会社は、製品の設計、開発、統合、検証、検証を行っている。本稿では,Large Language Models (LLMs) と協調して知識グラフ(KGs)を活用してデータの抽出と検証を行うハイブリッド手法を提案する。
論文参考訳（メタデータ） (2024-08-03T07:42:53Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
KVP10k : A Comprehensive Dataset for Key-Value Pair Extraction in Business Documents [8.432909947794874]
我々はキー-値ペア(KVP)抽出用に特別に設計された新しいデータセットとベンチマークであるKVP10kを紹介する。データセットには、リッチな注釈付き画像10707が含まれている。我々のベンチマークでは、KIEの要素とKVPを1つのタスクで組み合わせた新しい挑戦的なタスクも導入しています。
論文参考訳（メタデータ） (2024-05-01T13:37:27Z)
Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文参考訳（メタデータ） (2023-10-02T07:05:19Z)
Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文参考訳（メタデータ） (2023-05-12T14:11:47Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文参考訳（メタデータ） (2023-02-11T11:32:10Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Documenting Data Production Processes: A Participatory Approach for Data Work [4.811554861191618]
機械学習データの不透明さは倫理的なデータ処理と知的なシステムにとって重大な脅威ですこれまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文参考訳（メタデータ） (2022-07-11T15:39:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。