論文の概要: Business Document Information Extraction: Towards Practical Benchmarks
- arxiv url: http://arxiv.org/abs/2206.11229v1
- Date: Mon, 20 Jun 2022 15:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 08:43:41.754335
- Title: Business Document Information Extraction: Towards Practical Benchmarks
- Title(参考訳): ビジネス文書情報抽出 : 実践ベンチマークに向けて
- Authors: Maty\'a\v{s} Skalick\'y, \v{S}t\v{e}p\'an \v{S}imsa, Michal
U\v{r}i\v{c}\'a\v{r}, Milan \v{S}ulc
- Abstract要約: 本稿では,文書情報抽出問題,データセット,ベンチマークの状況について概観する。
共通定義に欠けている実践的側面を強調し,鍵情報局所化・抽出(KILE)問題とラインアイテム認識(LIR)問題を定義する。
通常、コンテンツは法的に保護されているか、センシティブであるので、半構造化のビジネス文書にドキュメントIEに関する関連するデータセットとベンチマークが欠如しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction from semi-structured documents is crucial for
frictionless business-to-business (B2B) communication. While machine learning
problems related to Document Information Extraction (IE) have been studied for
decades, many common problem definitions and benchmarks do not reflect
domain-specific aspects and practical needs for automating B2B document
communication. We review the landscape of Document IE problems, datasets and
benchmarks. We highlight the practical aspects missing in the common
definitions and define the Key Information Localization and Extraction (KILE)
and Line Item Recognition (LIR) problems. There is a lack of relevant datasets
and benchmarks for Document IE on semi-structured business documents as their
content is typically legally protected or sensitive. We discuss potential
sources of available documents including synthetic data.
- Abstract(参考訳): 半構造化文書からの情報抽出は、摩擦のないビジネス・ツー・ビジネス(B2B)通信に不可欠である。
文書情報抽出(IE)に関する機械学習の問題は何十年にもわたって研究されてきたが、多くの一般的な問題定義やベンチマークはドメイン固有の側面やB2B文書通信を自動化するための実践的ニーズを反映していない。
ドキュメントIE問題、データセット、ベンチマークの状況についてレビューする。
共通定義に欠けている実践的側面を強調し,鍵情報局所化・抽出(KILE)問題とラインアイテム認識(LIR)問題を定義する。
半構造化ビジネスドキュメントにieを文書化するには、関連するデータセットやベンチマークが欠如している。
我々は、合成データを含む利用可能なドキュメントの潜在的なソースについて論じる。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval [42.73076855699184]
マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
論文 参考訳(メタデータ) (2022-12-20T18:41:38Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - Spatial Dependency Parsing for Semi-Structured Document Information
Extraction [29.231908055394808]
本研究では,文書内の複雑な関係と任意の数の情報層をエンドツーエンドにモデル化するSPADE(SPA Dependency)を提案する。
我々はレシート、名刺、フォーム、請求書など、さまざまな種類の文書で評価する。
論文 参考訳(メタデータ) (2020-05-01T22:59:56Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。