論文の概要: LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking
- arxiv url: http://arxiv.org/abs/2204.08387v2
- Date: Tue, 19 Apr 2022 15:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 11:42:02.181031
- Title: LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking
- Title(参考訳): LayoutLMv3: 統一テキストとイメージマスキングによるドキュメントAIの事前トレーニング
- Authors: Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei
- Abstract要約: テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
- 参考スコア(独自算出の注目度): 83.09001231165985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised pre-training techniques have achieved remarkable progress in
Document AI. Most multimodal pre-trained models use a masked language modeling
objective to learn bidirectional representations on the text modality, but they
differ in pre-training objectives for the image modality. This discrepancy adds
difficulty to multimodal representation learning. In this paper, we propose
LayoutLMv3 to pre-train multimodal Transformers for Document AI with unified
text and image masking. Additionally, LayoutLMv3 is pre-trained with a
word-patch alignment objective to learn cross-modal alignment by predicting
whether the corresponding image patch of a text word is masked. The simple
unified architecture and training objectives make LayoutLMv3 a general-purpose
pre-trained model for both text-centric and image-centric Document AI tasks.
Experimental results show that LayoutLMv3 achieves state-of-the-art performance
not only in text-centric tasks, including form understanding, receipt
understanding, and document visual question answering, but also in
image-centric tasks such as document image classification and document layout
analysis. The code and models are publicly available at
https://aka.ms/layoutlmv3.
- Abstract(参考訳): 自己教師付き事前トレーニング技術は、Document AIで顕著な進歩を遂げた。
ほとんどのマルチモーダル事前学習モデルは、マスク付き言語モデリングの目的を用いて、テキストモダリティの双方向表現を学習するが、画像モダリティの事前学習目標が異なる。
この不一致はマルチモーダル表現学習に困難をもたらす。
本稿では,テキストと画像マスキングを統一した文書ai用マルチモーダルトランスフォーマーの事前学習を行うlayoutlmv3を提案する。
さらに、LayoutLMv3を単語パッチアライメント目的で事前訓練し、テキストワードの対応する画像パッチがマスクされているか否かを予測して、クロスモーダルアライメントを学習する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
実験結果から,LayoutLMv3はテキスト中心のタスク(フォーム理解,レセプション理解,文書視覚質問応答など)だけでなく,文書画像分類や文書レイアウト解析などの画像中心のタスクにおいても,最先端のパフォーマンスを実現することがわかった。
コードとモデルはhttps://aka.ms/layoutlmv3で公開されている。
関連論文リスト
- DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding [7.7514466231699455]
本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。
統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。
様々なVrDU問題に対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-05-30T03:56:07Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。