論文の概要: Masked Vision-Language Transformers for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2211.04785v1
- Date: Wed, 9 Nov 2022 10:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:06:13.056934
- Title: Masked Vision-Language Transformers for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのマスク付き視覚言語トランスフォーマー
- Authors: Jie Wu, Ying Peng, Shengming Zhang, Weigang Qi, Jian Zhang
- Abstract要約: Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
- 参考スコア(独自算出の注目度): 10.057137581956363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text recognition (STR) enables computers to recognize and read the text
in various real-world scenes. Recent STR models benefit from taking linguistic
information in addition to visual cues into consideration. We propose a novel
Masked Vision-Language Transformers (MVLT) to capture both the explicit and the
implicit linguistic information. Our encoder is a Vision Transformer, and our
decoder is a multi-modal Transformer. MVLT is trained in two stages: in the
first stage, we design a STR-tailored pretraining method based on a masking
strategy; in the second stage, we fine-tune our model and adopt an iterative
correction method to improve the performance. MVLT attains superior results
compared to state-of-the-art STR models on several benchmarks. Our code and
model are available at https://github.com/onealwj/MVLT.
- Abstract(参考訳): Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは視覚的手がかりに加えて言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
私たちのエンコーダはビジョントランスフォーマーで、デコーダはマルチモーダルトランスフォーマーです。
MVLTは,第1段階ではマスキング戦略に基づくSTR調整事前訓練法を設計し,第2段階ではモデルを微調整し,反復補正法を適用して性能を向上させる。
MVLTは、いくつかのベンチマークで最先端のSTRモデルよりも優れた結果が得られる。
私たちのコードとモデルはhttps://github.com/onealwj/mvltで利用可能です。
関連論文リスト
- ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining [58.241008246380254]
シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
論文 参考訳(メタデータ) (2023-06-21T08:47:20Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Training Vision-Language Transformers from Captions [80.00302205584335]
我々は,Masked Auto-Encoders上に構築されたVLC(Vision-Language from Captions)を新たに導入する。
ViLTと我々のモデルとの直接比較の結果、我々の手法は標準ベンチマークにおいてViLTよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-05-19T00:19:48Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。