論文の概要: Key Information Extraction From Documents: Evaluation And Generator
- arxiv url: http://arxiv.org/abs/2106.14624v1
- Date: Wed, 9 Jun 2021 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:36:56.684584
- Title: Key Information Extraction From Documents: Evaluation And Generator
- Title(参考訳): 文書からのキー情報抽出:評価と生成
- Authors: Oliver Bensch, Mirela Popa and Constantin Spille
- Abstract要約: 本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
- 参考スコア(独自算出の注目度): 3.878105750489656
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting information from documents usually relies on natural language
processing methods working on one-dimensional sequences of text. In some cases,
for example, for the extraction of key information from semi-structured
documents, such as invoice-documents, spatial and formatting information of
text are crucial to understand the contextual meaning. Convolutional neural
networks are already common in computer vision models to process and extract
relationships in multidimensional data. Therefore, natural language processing
models have already been combined with computer vision models in the past, to
benefit from e.g. positional information and to improve performance of these
key information extraction models. Existing models were either trained on
unpublished data sets or on an annotated collection of receipts, which did not
focus on PDF-like documents. Hence, in this research project a template-based
document generator was created to compare state-of-the-art models for
information extraction. An existing information extraction model "Chargrid"
(Katti et al., 2019) was reconstructed and the impact of a bounding box
regression decoder, as well as the impact of an NLP pre-processing step was
evaluated for information extraction from documents. The results have shown
that NLP based pre-processing is beneficial for model performance. However, the
use of a bounding box regression decoder increases the model performance only
for fields that do not follow a rectangular shape.
- Abstract(参考訳): 文書から情報を抽出することは、通常1次元のテキスト列を扱う自然言語処理手法に依存する。
例えば、請求書文書などの半構造化文書から鍵情報を抽出する場合、テキストの空間的およびフォーマット的情報は文脈的意味を理解するために不可欠である。
畳み込みニューラルネットワークは、多次元データにおける関係の処理と抽出にコンピュータビジョンモデルですでに一般的である。
したがって、自然言語処理モデルは過去にもコンピュータビジョンモデルと組み合わされ、例えば、その恩恵を受けてきた。
位置情報とこれらの鍵情報抽出モデルの性能向上を図る。
既存のモデルは未発表のデータセットやPDFのような文書にフォーカスしない注釈付きレシートのコレクションで訓練された。
この研究プロジェクトでは,情報抽出のための最先端モデルを比較するテンプレートベースの文書生成器が開発された。
既存の情報抽出モデルであるChargrid (Katti et al., 2019) を再構築し, 境界ボックス回帰デコーダの影響と, NLP前処理ステップの影響を評価した。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
しかし、バウンディングボックス回帰デコーダを使用することで、矩形に従わないフィールドに対してのみモデル性能が向上する。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents [0.0]
ビジュアルリッチ文書(VRD)に適用された関係抽出(RE)において、現在の最先端結果に適合または優れるモデルを提案する。
また、FUNSDを用いた広範囲なアブレーション研究を行い、特定の特徴とモデル化の選択がパフォーマンスに与える影響を強調した。
論文 参考訳(メタデータ) (2024-04-16T18:50:57Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。