論文の概要: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding
- arxiv url: http://arxiv.org/abs/2012.14740v1
- Date: Tue, 29 Dec 2020 13:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:38:56.855868
- Title: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding
- Title(参考訳): LayoutLMv2:ビジュアルリッチ文書理解のためのマルチモーダル事前トレーニング
- Authors: Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang,
Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou
- Abstract要約: テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
- 参考スコア(独自算出の注目度): 49.941806975280045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training of text and layout has proved effective in a variety of
visually-rich document understanding tasks due to its effective model
architecture and the advantage of large-scale unlabeled scanned/digital-born
documents. In this paper, we present \textbf{LayoutLMv2} by pre-training text,
layout and image in a multi-modal framework, where new model architectures and
pre-training tasks are leveraged. Specifically, LayoutLMv2 not only uses the
existing masked visual-language modeling task but also the new text-image
alignment and text-image matching tasks in the pre-training stage, where
cross-modality interaction is better learned. Meanwhile, it also integrates a
spatial-aware self-attention mechanism into the Transformer architecture, so
that the model can fully understand the relative positional relationship among
different text blocks. Experiment results show that LayoutLMv2 outperforms
strong baselines and achieves new state-of-the-art results on a wide variety of
downstream visually-rich document understanding tasks, including FUNSD (0.7895
-> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA
(0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), and DocVQA (0.7295 -> 0.8672).
- Abstract(参考訳): テキストとレイアウトの事前トレーニングは、効果的なモデルアーキテクチャと大規模なラベルなしスキャン/デジタルネイティブドキュメントの利点により、視覚的にリッチな文書理解タスクで効果的であることが証明されている。
本稿では,新しいモデルアーキテクチャと事前学習タスクを活用するマルチモーダルフレームワークにおいて,テキスト,レイアウト,イメージを事前学習することで,textbf{LayoutLMv2}を提案する。
特に、LayoutLMv2は、既存のマスク付き視覚言語モデリングタスクだけでなく、新しいテキストイメージアライメントとテキストイメージマッチングタスクをトレーニング前の段階で使用しています。
また、トランスフォーマーアーキテクチャに空間認識型セルフアテンション機構を統合することで、異なるテキストブロック間の相対的な位置関係を完全に理解することができる。
実験の結果,LayoutLMv2 は,FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), DocVQA (0.7295 -> 0.8672) など,さまざまな下流視覚に富む文書理解タスクにおいて,強力なベースラインを達成し,新たな最先端の文書理解タスクを実現することがわかった。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding [7.7514466231699455]
本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。
統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。
様々なVrDU問題に対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-05-30T03:56:07Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。