論文の概要: GenKIE: Robust Generative Multimodal Document Key Information Extraction
- arxiv url: http://arxiv.org/abs/2310.16131v1
- Date: Tue, 24 Oct 2023 19:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 18:27:46.200187
- Title: GenKIE: Robust Generative Multimodal Document Key Information Extraction
- Title(参考訳): GenKIE:ロバストな生成型マルチモーダルドキュメントキー情報抽出
- Authors: Panfeng Cao, Ye Wang, Qiang Zhang, Zaiqiao Meng
- Abstract要約: スキャンした文書から重要情報を抽出する手法は,様々な領域に応用されているため注目されている。
我々は,KIEタスクに対処する新しい生成的エンドツーエンドモデルであるGenkieを提案する。
生成モデルの顕著な利点は、OCRエラーの自動修正を可能にすることである。
- 参考スコア(独自算出の注目度): 24.365711528919313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key information extraction (KIE) from scanned documents has gained increasing
attention because of its applications in various domains. Although promising
results have been achieved by some recent KIE approaches, they are usually
built based on discriminative models, which lack the ability to handle optical
character recognition (OCR) errors and require laborious token-level labelling.
In this paper, we propose a novel generative end-to-end model, named GenKIE, to
address the KIE task. GenKIE is a sequence-to-sequence multimodal generative
model that utilizes multimodal encoders to embed visual, layout and textual
features and a decoder to generate the desired output. Well-designed prompts
are leveraged to incorporate the label semantics as the weakly supervised
signals and entice the generation of the key information. One notable advantage
of the generative model is that it enables automatic correction of OCR errors.
Besides, token-level granular annotation is not required. Extensive experiments
on multiple public real-world datasets show that GenKIE effectively generalizes
over different types of documents and achieves state-of-the-art results. Our
experiments also validate the model's robustness against OCR errors, making
GenKIE highly applicable in real-world scenarios.
- Abstract(参考訳): スキャンされた文書からキー情報抽出(KIE)が注目されている。
最近のkieのアプローチによって有望な結果が得られたが、通常は識別モデルに基づいて構築され、ocr(optical character recognition)エラーの処理能力がなく、不必要なトークンレベルのラベル付けが必要となる。
本稿では,KIEタスクに対処する新しい生成的エンドツーエンドモデルであるGenkieを提案する。
genkieは、マルチモーダルエンコーダを使用して視覚、レイアウト、テキストの特徴を埋め込み、デコーダを使用して所望の出力を生成するシーケンスツーシーケンスのマルチモーダル生成モデルである。
適切に設計されたプロンプトを利用して、ラベルセマンティクスを弱教師付き信号として組み込んで、キー情報の生成を促す。
生成モデルの顕著な利点は、OCRエラーの自動修正を可能にすることである。
さらに、トークンレベルの粒度アノテーションは不要である。
複数のパブリックな実世界のデータセットに対する大規模な実験は、GenKIEが様々な種類のドキュメントを効果的に一般化し、最先端の結果を達成することを示している。
実験では,OCRエラーに対するモデルの堅牢性も検証し,実際のシナリオにおいてGenKIEを高度に適用する。
関連論文リスト
- CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Sequence-to-Sequence Pre-training with Unified Modality Masking for
Visual Document Understanding [3.185382039518151]
GenDocは、3つのモードにわたる統一マスキングで事前訓練されたシーケンスからシーケンスまでの文書理解モデルである。
提案手法はエンコーダ・デコーダアーキテクチャを用いて,幅広い下流タスクへの適応性を向上する。
論文 参考訳(メタデータ) (2023-05-16T15:25:19Z) - GMN: Generative Multi-modal Network for Practical Document Information
Extraction [9.24332309286413]
文書情報抽出 (DIE) は, 実世界の様々な先進的な応用により, 注目を集めている。
本稿では,これらの問題に対処するための実環境シナリオのためのジェネレーティブ・マルチモーダル・ネットワーク(GMN)を提案する。
慎重に設計された空間エンコーダとモード対応マスクモジュールにより、GMNはシーケンシャルな順序にシリアライズが難しい複雑なドキュメントを扱うことができる。
論文 参考訳(メタデータ) (2022-07-11T08:52:36Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。