論文の概要: ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding
- arxiv url: http://arxiv.org/abs/2210.06155v1
- Date: Wed, 12 Oct 2022 12:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:34:07.458844
- Title: ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding
- Title(参考訳): ERNIE-Layout: 視覚的にリッチな文書理解のための事前トレーニングを強化したレイアウト知識
- Authors: Qiming Peng, Yinxu Pan, Wenjin Wang, Bin Luo, Zhenyu Zhang, Zhengjie
Huang, Teng Hu, Weichong Yin, Yongfeng Chen, Yin Zhang, Shikun Feng, Yu Sun,
Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
- 参考スコア(独自算出の注目度): 52.3895498789521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the rise and success of pre-training techniques
in visually-rich document understanding. However, most existing methods lack
the systematic mining and utilization of layout-centered knowledge, leading to
sub-optimal performances. In this paper, we propose ERNIE-Layout, a novel
document pre-training solution with layout knowledge enhancement in the whole
workflow, to learn better representations that combine the features from text,
layout, and image. Specifically, we first rearrange input sequences in the
serialization stage, and then present a correlative pre-training task, reading
order prediction, to learn the proper reading order of documents. To improve
the layout awareness of the model, we integrate a spatial-aware disentangled
attention into the multi-modal transformer and a replaced regions prediction
task into the pre-training phase. Experimental results show that ERNIE-Layout
achieves superior performance on various downstream tasks, setting new
state-of-the-art on key information extraction, document image classification,
and document question answering datasets. The code and models are publicly
available at
http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout.
- Abstract(参考訳): 近年、視覚に富んだ文書理解における事前学習技術の台頭と成功を目撃している。
しかし、既存の手法のほとんどは、レイアウト中心の知識の体系的なマイニングと利用を欠いているため、準最適性能をもたらす。
本稿では,テキスト,レイアウト,画像といった特徴を組み合わせた表現を学習するために,ワークフロー全体におけるレイアウト知識の強化を伴う新しい文書事前学習ソリューションであるERNIE-Layoutを提案する。
具体的には、まず、シリアライズ段階で入力シーケンスを並べ替え、次に相関した事前学習タスク、読み出し順序予測を示し、文書の適切な読み出し順序を学習する。
モデルのレイアウト認識を改善するため,マルチモーダル変圧器に空間認識不連続な注意を配置し,事前学習フェーズに置き換えた領域予測タスクを統合する。
実験結果から、ERNIE-Layoutは、キー情報抽出、文書画像分類、文書質問応答データセットに新たな最先端設定を施し、様々な下流タスクにおいて優れた性能を発揮することが示された。
コードとモデルはhttp://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layoutで公開されている。
関連論文リスト
- Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - A Span Extraction Approach for Information Extraction on Visually-Rich
Documents [2.3131309703965135]
視覚豊かな文書(VRD)を事前学習する言語モデルの能力向上のための新しいアプローチを提案する。
まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。
また、文書内の意味的エンティティ間の関係をモデル化することに焦点を当てた新しいトレーニングタスクを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:50:04Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。