論文の概要: StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training
- arxiv url: http://arxiv.org/abs/2303.00289v1
- Date: Wed, 1 Mar 2023 07:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:43:09.656421
- Title: StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training
- Title(参考訳): StrucTexTv2: ドキュメントイメージ事前トレーニングのためのマスク付きビジュアルテキスト予測
- Authors: Yuechen Yu, Yulin Li, Chengquan Zhang, Xiaoqiang Zhang, Zengyuan Guo,
Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
- Abstract要約: StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 64.37272287179661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present StrucTexTv2, an effective document image
pre-training framework, by performing masked visual-textual prediction. It
consists of two self-supervised pre-training tasks: masked image modeling and
masked language modeling, based on text region-level image masking. The
proposed method randomly masks some image regions according to the bounding box
coordinates of text words. The objectives of our pre-training tasks are
reconstructing the pixels of masked image regions and the corresponding masked
tokens simultaneously. Hence the pre-trained encoder can capture more textual
semantics in comparison to the masked image modeling that usually predicts the
masked image patches. Compared to the masked multi-modal modeling methods for
document image understanding that rely on both the image and text modalities,
StrucTexTv2 models image-only input and potentially deals with more application
scenarios free from OCR pre-processing. Extensive experiments on mainstream
benchmarks of document image understanding demonstrate the effectiveness of
StrucTexTv2. It achieves competitive or even new state-of-the-art performance
in various downstream tasks such as image classification, layout analysis,
table structure recognition, document OCR, and information extraction under the
end-to-end scenario.
- Abstract(参考訳): 本稿では、マスク付き視覚テキスト予測を行うことにより、効果的な文書画像事前学習フレームワークであるStrucTexTv2を提案する。
テキスト領域レベルの画像マスキングに基づくマスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前トレーニングタスクで構成されている。
提案手法は,テキスト単語の境界ボックス座標に従って画像領域をランダムにマスキングする。
事前学習課題の目的は,マスク画像領域の画素と対応するマスクトークンを同時に再構成することである。
したがって、事前学習されたエンコーダは、通常マスク画像パッチを予測するマスク画像モデリングと比較して、よりテキスト的な意味を捉えることができる。
画像とテキストのモダリティの両方に依存する文書画像理解のためのマスク付きマルチモーダルモデリング手法と比較すると、StrucTexTv2は画像のみの入力をモデル化し、OCR前処理なしでより多くのアプリケーションシナリオを扱う可能性がある。
文書画像理解の主流ベンチマークに関する大規模な実験は、StrucTexTv2の有効性を示している。
画像分類、レイアウト分析、テーブル構造認識、ドキュメントocr、エンドツーエンドシナリオによる情報抽出など、さまざまな下流タスクにおいて、競争力のある、あるいは新たな最先端性能を実現する。
関連論文リスト
- DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding [7.7514466231699455]
本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。
統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。
様々なVrDU問題に対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-05-30T03:56:07Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。