論文の概要: ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining
- arxiv url: http://arxiv.org/abs/2306.12106v1
- Date: Wed, 21 Jun 2023 08:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 14:06:47.464465
- Title: ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining
- Title(参考訳): ViTEraser:SegMIMプレトレーニングによるシーンテキスト除去のためのビジョントランスフォーマーのパワーを損なう
- Authors: Dezhi Peng, Chongyu Liu, Yuliang Liu, Lianwen Jin
- Abstract要約: シーンテキストの除去は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
既存のSTR法の多くは、特徴表現に畳み込みニューラルネットワーク(CNN)を使用している。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
- 参考スコア(独自算出の注目度): 40.078430531782416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text removal (STR) aims at replacing text strokes in natural scenes
with visually coherent backgrounds. Recent STR approaches rely on iterative
refinements or explicit text masks, resulting in higher complexity and
sensitivity to the accuracy of text localization. Moreover, most existing STR
methods utilize convolutional neural networks (CNNs) for feature representation
while the potential of vision Transformers (ViTs) remains largely unexplored.
In this paper, we propose a simple-yet-effective ViT-based text eraser, dubbed
ViTEraser. Following a concise encoder-decoder framework, different types of
ViTs can be easily integrated into ViTEraser to enhance the long-range
dependencies and global reasoning. Specifically, the encoder hierarchically
maps the input image into the hidden space through ViT blocks and patch
embedding layers, while the decoder gradually upsamples the hidden features to
the text-erased image with ViT blocks and patch splitting layers. As ViTEraser
implicitly integrates text localization and inpainting, we propose a novel
end-to-end pretraining method, termed SegMIM, which focuses the encoder and
decoder on the text box segmentation and masked image modeling tasks,
respectively. To verify the effectiveness of the proposed methods, we
comprehensively explore the architecture, pretraining, and scalability of the
ViT-based encoder-decoder for STR, which provides deep insights into the
application of ViT to STR. Experimental results demonstrate that ViTEraser with
SegMIM achieves state-of-the-art performance on STR by a substantial margin.
Furthermore, the extended experiment on tampered scene text detection
demonstrates the generality of ViTEraser to other tasks. We believe this paper
can inspire more research on ViT-based STR approaches. Code will be available
at https://github.com/shannanyinxiang/ViTEraser.
- Abstract(参考訳): シーンテキスト除去(str)は、自然シーンのテキストストロークを視覚的なコヒーレントな背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
さらに、既存のSTR法のほとんどは、視覚変換器(ViT)のポテンシャルがほとんど探索されていない間、特徴表現に畳み込みニューラルネットワーク(CNN)を使用している。
本稿では, ViTEraser と呼ばれる, 単純かつ効率の良い ViT ベースのテキスト消去器を提案する。
簡潔なエンコーダ/デコーダフレームワークに従って、ViTのさまざまなタイプをViTEraserに統合して、長距離依存関係とグローバルな推論を強化することができる。
具体的には、エンコーダは、入力画像をViTブロックと埋め込み層を介して隠れた空間に階層的にマッピングし、デコーダは、隠れた特徴を徐々にViTブロックと分割層でテキスト消去画像にアップサンプリングする。
ViTEraserはテキストローカライゼーションと塗装を暗黙的に統合するので、テキストボックスセグメンテーションとマスク付き画像モデリングタスクにエンコーダとデコーダに焦点を当てた、SegMIMと呼ばれる新しいエンドツーエンド事前学習手法を提案する。
提案手法の有効性を検証するため,我々は,vitのstrへの適用に関する深い洞察を提供する,vitベースのエンコーダ・デコーダのアーキテクチャ,事前学習,スケーラビリティを総合的に検討する。
実験結果から,SegMIMを用いたViTEraserはSTRの最先端性能をかなりのマージンで達成できることが示された。
さらに,シーンテキスト検出の拡張実験により,他のタスクに対するViTEraserの汎用性を示す。
本稿は, ViT ベースの STR アプローチのさらなる研究を促すことができると考えている。
コードはhttps://github.com/shannanyinxiang/viteraserで入手できる。
関連論文リスト
- Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling [44.70973195966149]
既存のシーンテキスト削除(STR)タスクは、高価なピクセルレベルのラベリングのため、トレーニングデータ不足に悩まされる。
我々は,低コストなテキスト検出ラベルを用いたSTRモデルの事前学習が可能なテキスト対応マスク付き画像モデリングアルゴリズム(TMIM)を提案する。
我々の方法は、他のプリトレイン法より優れ、最先端のパフォーマンス(SCUT-EnsTextの37.35 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-09-20T11:52:57Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - FETNet: Feature Erasing and Transferring Network for Scene Text Removal [14.763369952265796]
Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
論文 参考訳(メタデータ) (2023-06-16T02:38:30Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Masked Vision-Language Transformers for Scene Text Recognition [10.057137581956363]
Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
論文 参考訳(メタデータ) (2022-11-09T10:28:23Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。