論文の概要: Key Information Extraction From Documents: Evaluation And Generator
- arxiv url: http://arxiv.org/abs/2106.14624v1
- Date: Wed, 9 Jun 2021 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:36:56.684584
- Title: Key Information Extraction From Documents: Evaluation And Generator
- Title(参考訳): 文書からのキー情報抽出:評価と生成
- Authors: Oliver Bensch, Mirela Popa and Constantin Spille
- Abstract要約: 本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
- 参考スコア(独自算出の注目度): 3.878105750489656
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting information from documents usually relies on natural language
processing methods working on one-dimensional sequences of text. In some cases,
for example, for the extraction of key information from semi-structured
documents, such as invoice-documents, spatial and formatting information of
text are crucial to understand the contextual meaning. Convolutional neural
networks are already common in computer vision models to process and extract
relationships in multidimensional data. Therefore, natural language processing
models have already been combined with computer vision models in the past, to
benefit from e.g. positional information and to improve performance of these
key information extraction models. Existing models were either trained on
unpublished data sets or on an annotated collection of receipts, which did not
focus on PDF-like documents. Hence, in this research project a template-based
document generator was created to compare state-of-the-art models for
information extraction. An existing information extraction model "Chargrid"
(Katti et al., 2019) was reconstructed and the impact of a bounding box
regression decoder, as well as the impact of an NLP pre-processing step was
evaluated for information extraction from documents. The results have shown
that NLP based pre-processing is beneficial for model performance. However, the
use of a bounding box regression decoder increases the model performance only
for fields that do not follow a rectangular shape.
- Abstract(参考訳): 文書から情報を抽出することは、通常1次元のテキスト列を扱う自然言語処理手法に依存する。
例えば、請求書文書などの半構造化文書から鍵情報を抽出する場合、テキストの空間的およびフォーマット的情報は文脈的意味を理解するために不可欠である。
畳み込みニューラルネットワークは、多次元データにおける関係の処理と抽出にコンピュータビジョンモデルですでに一般的である。
したがって、自然言語処理モデルは過去にもコンピュータビジョンモデルと組み合わされ、例えば、その恩恵を受けてきた。
位置情報とこれらの鍵情報抽出モデルの性能向上を図る。
既存のモデルは未発表のデータセットやPDFのような文書にフォーカスしない注釈付きレシートのコレクションで訓練された。
この研究プロジェクトでは,情報抽出のための最先端モデルを比較するテンプレートベースの文書生成器が開発された。
既存の情報抽出モデルであるChargrid (Katti et al., 2019) を再構築し, 境界ボックス回帰デコーダの影響と, NLP前処理ステップの影響を評価した。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
しかし、バウンディングボックス回帰デコーダを使用することで、矩形に従わないフィールドに対してのみモデル性能が向上する。
関連論文リスト
- FLIP: Towards Fine-grained Alignment between ID-based Models and
Pretrained Language Models for CTR Prediction [51.64257638308695]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。