論文の概要: Data-Efficient Information Extraction from Form-Like Documents
- arxiv url: http://arxiv.org/abs/2201.02647v1
- Date: Fri, 7 Jan 2022 19:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 11:20:03.418202
- Title: Data-Efficient Information Extraction from Form-Like Documents
- Title(参考訳): 形式的文書からのデータ効率の良い情報抽出
- Authors: Beliz Gunel and Navneet Potti and Sandeep Tata and James B. Wendt and
Marc Najork and Jing Xie
- Abstract要約: 鍵となる課題は、フォームライクなドキュメントが、事実上無限に多くの方法でレイアウトできることです。
データ効率は、数百の異なるドキュメントタイプを扱うために、情報抽出システムがスケールできるようにするために重要である。
- 参考スコア(独自算出の注目度): 14.567098292973075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating information extraction from form-like documents at scale is a
pressing need due to its potential impact on automating business workflows
across many industries like financial services, insurance, and healthcare. The
key challenge is that form-like documents in these business workflows can be
laid out in virtually infinitely many ways; hence, a good solution to this
problem should generalize to documents with unseen layouts and languages. A
solution to this problem requires a holistic understanding of both the textual
segments and the visual cues within a document, which is non-trivial. While the
natural language processing and computer vision communities are starting to
tackle this problem, there has not been much focus on (1) data-efficiency, and
(2) ability to generalize across different document types and languages.
In this paper, we show that when we have only a small number of labeled
documents for training (~50), a straightforward transfer learning approach from
a considerably structurally-different larger labeled corpus yields up to a 27
F1 point improvement over simply training on the small corpus in the target
domain. We improve on this with a simple multi-domain transfer learning
approach, that is currently in production use, and show that this yields up to
a further 8 F1 point improvement. We make the case that data efficiency is
critical to enable information extraction systems to scale to handle hundreds
of different document-types, and learning good representations is critical to
accomplishing this.
- Abstract(参考訳): フォームライクなドキュメントから情報抽出を大規模に自動化することは、金融サービス、保険、医療など、多くの産業におけるビジネスワークフローの自動化に潜在的に影響を与える可能性があるため、差し迫ったニーズである。
鍵となる課題は、これらのビジネスワークフローにおけるフォームライクなドキュメントは、事実上無限に多くの方法でレイアウトできることです。
この問題の解法は、文書内のテキストセグメントと視覚的手がかりの両方を包括的に理解する必要があるが、これは非自明である。
自然言語処理とコンピュータビジョンのコミュニティはこの問題に取り組み始めているが、(1)データ効率、(2)文書の種類や言語をまたいで一般化する能力にはあまり焦点が当てられていない。
本稿では,少数のラベル付き文書(〜50)しか持たない場合,比較的構造的に異なる大きなラベル付きコーパスからの簡単な転送学習アプローチにより,対象ドメインの小さなコーパス上でのトレーニングよりも27F1ポイント向上することを示す。
現在実運用で使用されている、シンプルなマルチドメイン転送学習アプローチでこれを改善することで、さらに8 F1ポイントの改善が達成できることを示す。
我々は、データ効率が重要であり、情報抽出システムが数百の異なる文書タイプを扱うために拡張可能であり、優れた表現を学習することがこれを実現する上で重要であることを主張する。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Improving Information Extraction on Business Documents with Specific
Pre-Training Tasks [1.9331361036118608]
トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。
スキャンした文書のよりコンテクスト化された表現をモデルに学習させる2つの新しい事前学習タスクを導入する。
また,情報抽出におけるBIESOタグを復号化するためのポストプロセッシングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-11T13:05:23Z) - Multimodal Document Analytics for Banking Process Automation [4.541582055558865]
本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。
日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-07-21T18:29:04Z) - An Augmentation Strategy for Visually Rich Documents [13.428304945684621]
本稿では,トレーニングデータが少ない場合のパフォーマンス向上のための新しいデータ拡張手法を提案する。
FieldSwapと呼ばれる我々の手法は、ソースフィールドのキーフレーズとターゲットフィールドのキーフレーズを交換することで機能する。
提案手法は抽出性能が1-7F1ポイント向上できることを実証する。
論文 参考訳(メタデータ) (2022-12-20T07:44:25Z) - Delivering Document Conversion as a Cloud Service with High Throughput
and Responsiveness [0.0]
文書変換サービスの要件、設計、実装の選択について概説し、直面した課題を振り返る。
提案手法は,192ノードにわたる3072CPUコア上で,1時間あたり100万以上のPDFページの持続スループットを実現する。
論文 参考訳(メタデータ) (2022-06-01T22:30:30Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。