論文の概要: One-shot Key Information Extraction from Document with Deep Partial
Graph Matching
- arxiv url: http://arxiv.org/abs/2109.13967v1
- Date: Sun, 26 Sep 2021 07:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:52:35.106520
- Title: One-shot Key Information Extraction from Document with Deep Partial
Graph Matching
- Title(参考訳): 深部グラフマッチングを用いた文書からのワンショットキー情報抽出
- Authors: Minghong Yao, Zhiguang Liu, Liangwei Wang, Houqiang Li, Liansheng
Zhuang
- Abstract要約: ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
- 参考スコア(独自算出の注目度): 60.48651298832829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating the Key Information Extraction (KIE) from documents improves
efficiency, productivity, and security in many industrial scenarios such as
rapid indexing and archiving. Many existing supervised learning methods for the
KIE task need to feed a large number of labeled samples and learn separate
models for different types of documents. However, collecting and labeling a
large dataset is time-consuming and is not a user-friendly requirement for many
cloud platforms. To overcome these challenges, we propose a deep end-to-end
trainable network for one-shot KIE using partial graph matching. Contrary to
previous methods that the learning of similarity and solving are optimized
separately, our method enables the learning of the two processes in an
end-to-end framework. Existing one-shot KIE methods are either template or
simple attention-based learning approach that struggle to handle texts that are
shifted beyond their desired positions caused by printers, as illustrated in
Fig.1. To solve this problem, we add one-to-(at most)-one constraint such that
we will find the globally optimized solution even if some texts are drifted.
Further, we design a multimodal context ensemble block to boost the performance
through fusing features of spatial, textual, and aspect representations. To
promote research of KIE, we collected and annotated a one-shot document KIE
dataset named DKIE with diverse types of images. The DKIE dataset consists of
2.5K document images captured by mobile phones in natural scenes, and it is the
largest available one-shot KIE dataset up to now. The results of experiments on
DKIE show that our method achieved state-of-the-art performance compared with
recent one-shot and supervised learning approaches. The dataset and proposed
one-shot KIE model will be released soo
- Abstract(参考訳): ドキュメントからキー情報抽出(kie)を自動化することで、迅速なインデクシングやアーカイブといった多くの産業シナリオにおいて、効率、生産性、セキュリティが向上する。
KIEタスクのための既存の教師付き学習方法の多くは、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
しかし、大規模なデータセットの収集とラベリングは時間がかかり、多くのクラウドプラットフォームにとってユーザフレンドリーな要件ではない。
これらの課題を克服するため,我々は,部分グラフマッチングを用いたワンショットkieのエンド・ツー・エンド学習ネットワークを提案する。
類似性の学習と解法を別々に最適化する従来の手法とは対照的に,本手法では2つのプロセスをエンドツーエンドフレームワークで学習することができる。
既存のワンショットKIE手法は、図1に示すように、プリンタが求める位置を超えたテキストを扱うのに苦労するテンプレートまたは単純な注意に基づく学習手法である。
この問題を解決するために,テキストがドリフトしてもグローバルに最適化された解が見つかるように,一対一の制約を加える。
さらに,空間表現,テクスト表現,アスペクト表現の特徴を融合することにより,性能を向上させるマルチモーダルコンテキストアンサンブルブロックを設計する。
我々は,KIEの研究を促進するために,DKIEと命名されたワンショット文書KIEデータセットを多種多様な画像で収集・注釈した。
DKIEデータセットは、携帯電話が自然の場面で撮影した2.5Kのドキュメントイメージで構成されており、これまでで最大のワンショットKIEデータセットである。
DKIE実験の結果,近年のワンショット・教師あり学習手法と比較して最先端の学習性能が得られた。
データセットと提案されたワンショットKIEモデルがリリースされる
関連論文リスト
- mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。