論文の概要: Improving Information Extraction on Business Documents with Specific
Pre-Training Tasks
- arxiv url: http://arxiv.org/abs/2309.05429v1
- Date: Mon, 11 Sep 2023 13:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:50:47.296464
- Title: Improving Information Extraction on Business Documents with Specific
Pre-Training Tasks
- Title(参考訳): 事前学習作業による業務文書情報抽出の改善
- Authors: Thibault Douzon, Stefan Duffner, Christophe Garcia and J\'er\'emy
Espinas
- Abstract要約: トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。
スキャンした文書のよりコンテクスト化された表現をモデルに学習させる2つの新しい事前学習タスクを導入する。
また,情報抽出におけるBIESOタグを復号化するためのポストプロセッシングアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 1.9331361036118608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based Language Models are widely used in Natural Language
Processing related tasks. Thanks to their pre-training, they have been
successfully adapted to Information Extraction in business documents. However,
most pre-training tasks proposed in the literature for business documents are
too generic and not sufficient to learn more complex structures. In this paper,
we use LayoutLM, a language model pre-trained on a collection of business
documents, and introduce two new pre-training tasks that further improve its
capacity to extract relevant information. The first is aimed at better
understanding the complex layout of documents, and the second focuses on
numeric values and their order of magnitude. These tasks force the model to
learn better-contextualized representations of the scanned documents. We
further introduce a new post-processing algorithm to decode BIESO tags in
Information Extraction that performs better with complex entities. Our method
significantly improves extraction performance on both public (from 93.88 to
95.50 F1 score) and private (from 84.35 to 84.84 F1 score) datasets composed of
expense receipts, invoices, and purchase orders.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。
事前トレーニングのおかげで、ビジネスドキュメントの情報抽出にうまく適応している。
しかしながら、ビジネスドキュメントの文献で提案されている事前学習タスクの多くは、あまりにも汎用的であり、複雑な構造を学ぶには不十分である。
本稿では,ビジネス文書の収集に事前学習された言語モデルであるLayoutLMを用いて,関連情報を抽出する能力をさらに向上する2つの事前学習タスクを提案する。
第1は文書の複雑なレイアウトをよりよく理解することを目的としており、第2は数値値とその桁数に焦点を当てている。
これらのタスクは、スキャンした文書のよりコンテクスト化された表現をモデルに学習させる。
さらに,複雑なエンティティを用いた情報抽出において,biesoタグをデコードする新しい後処理アルゴリズムを導入する。
提案手法は,公用(93.88点から95.50点まで)と私用(84.35点から84.84点まで)の費用レシート,請求書,購入注文からなるデータセットの抽出性能を大幅に向上させる。
関連論文リスト
- Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。
大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-20T09:20:32Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Data-Efficient Information Extraction from Form-Like Documents [14.567098292973075]
鍵となる課題は、フォームライクなドキュメントが、事実上無限に多くの方法でレイアウトできることです。
データ効率は、数百の異なるドキュメントタイプを扱うために、情報抽出システムがスケールできるようにするために重要である。
論文 参考訳(メタデータ) (2022-01-07T19:16:49Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。