論文の概要: End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net
- arxiv url: http://arxiv.org/abs/2106.00952v1
- Date: Wed, 2 Jun 2021 05:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:39:10.168996
- Title: End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net
- Title(参考訳): 文字レベル埋め込みと多段階注意U-Netによるエンドツーエンド情報抽出
- Authors: Tuan-Anh Nguyen Dang and Dat-Thanh Nguyen
- Abstract要約: 本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
- 参考スコア(独自算出の注目度): 0.9137554315375922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Information extraction from document images has received a lot of attention
recently, due to the need for digitizing a large volume of unstructured
documents such as invoices, receipts, bank transfers, etc. In this paper, we
propose a novel deep learning architecture for end-to-end information
extraction on the 2D character-grid embedding of the document, namely the
\textit{Multi-Stage Attentional U-Net}. To effectively capture the textual and
spatial relations between 2D elements, our model leverages a specialized
multi-stage encoder-decoders design, in conjunction with efficient uses of the
self-attention mechanism and the box convolution. Experimental results on
different datasets show that our model outperforms the baseline U-Net
architecture by a large margin while using 40\% fewer parameters. Moreover, it
also significantly improved the baseline in erroneous OCR and limited training
data scenario, thus becomes practical for real-world applications.
- Abstract(参考訳): 請求書やレシート,銀行振替など,構造化されていない大量の文書をデジタル化する必要性から,近年,文書画像からの情報抽出が注目されている。
本稿では,文書の2次元キャラクタグリッド埋め込みに関するエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャ,すなわち \textit{multi-stage attentional u-net}を提案する。
2次元要素間のテキストと空間の関係を効果的に把握するために,本モデルは,自己保持機構とボックス畳み込みの効率的な利用と合わせて,特殊な多段エンコーダデコーダ設計を利用する。
異なるデータセットに対する実験結果から,40 % のパラメータを用いてベースラインの U-Net アーキテクチャよりも高い性能を示した。
さらに、誤ったOCRのベースラインと限られたトレーニングデータシナリオも大幅に改善され、現実のアプリケーションでは実用的になる。
関連論文リスト
- DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - GMN: Generative Multi-modal Network for Practical Document Information
Extraction [9.24332309286413]
文書情報抽出 (DIE) は, 実世界の様々な先進的な応用により, 注目を集めている。
本稿では,これらの問題に対処するための実環境シナリオのためのジェネレーティブ・マルチモーダル・ネットワーク(GMN)を提案する。
慎重に設計された空間エンコーダとモード対応マスクモジュールにより、GMNはシーケンシャルな順序にシリアライズが難しい複雑なドキュメントを扱うことができる。
論文 参考訳(メタデータ) (2022-07-11T08:52:36Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Graph-based Deep Generative Modelling for Document Layout Generation [14.907063348987075]
我々は,グラフニューラルネットワーク(GNN)を用いて,高度に可変な文書レイアウトを持つ合成データを生成する深層生成モデルを提案する。
また、管理文書画像上で実験された文書レイアウト生成タスクに対するグラフベースの最初のアプローチである。
論文 参考訳(メタデータ) (2021-07-09T10:49:49Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Sparse, Dense, and Attentional Representations for Text Retrieval [25.670835450331943]
デュアルエンコーダは、文書やクエリを高密度な低次元ベクトルに符号化することで検索を行う。
単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャのキャパシティについて検討する。
本稿では,2重エンコーダの効率性と,よりコストのかかる注目アーキテクチャの表現性を結合した単純なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-05-01T02:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。