論文の概要: ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining
- arxiv url: http://arxiv.org/abs/2306.12106v2
- Date: Sun, 18 Feb 2024 14:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:35:09.704106
- Title: ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining
- Title(参考訳): ViTEraser:SegMIMプレトレーニングによるシーンテキスト除去のためのビジョントランスフォーマーのパワーを損なう
- Authors: Dezhi Peng, Chongyu Liu, Yuliang Liu, Lianwen Jin
- Abstract要約: シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
- 参考スコア(独自算出の注目度): 58.241008246380254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text removal (STR) aims at replacing text strokes in natural scenes
with visually coherent backgrounds. Recent STR approaches rely on iterative
refinements or explicit text masks, resulting in high complexity and
sensitivity to the accuracy of text localization. Moreover, most existing STR
methods adopt convolutional architectures while the potential of vision
Transformers (ViTs) remains largely unexplored. In this paper, we propose a
simple-yet-effective ViT-based text eraser, dubbed ViTEraser. Following a
concise encoder-decoder framework, ViTEraser can easily incorporate various
ViTs to enhance long-range modeling. Specifically, the encoder hierarchically
maps the input image into the hidden space through ViT blocks and patch
embedding layers, while the decoder gradually upsamples the hidden features to
the text-erased image with ViT blocks and patch splitting layers. As ViTEraser
implicitly integrates text localization and inpainting, we propose a novel
end-to-end pretraining method, termed SegMIM, which focuses the encoder and
decoder on the text box segmentation and masked image modeling tasks,
respectively. Experimental results demonstrate that ViTEraser with SegMIM
achieves state-of-the-art performance on STR by a substantial margin and
exhibits strong generalization ability when extended to other tasks,
\textit{e.g.}, tampered scene text detection. Furthermore, we comprehensively
explore the architecture, pretraining, and scalability of the ViT-based
encoder-decoder for STR, which provides deep insights into the application of
ViT to the STR field. Code is available at
https://github.com/shannanyinxiang/ViTEraser.
- Abstract(参考訳): シーンテキスト除去(str)は、自然シーンのテキストストロークを視覚的なコヒーレントな背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
さらに、既存のSTRメソッドの多くは畳み込みアーキテクチャを採用しているが、視覚変換器(ViT)の可能性はほとんど未検討である。
本稿では, ViTEraser と呼ばれる, 単純かつ効率の良い ViT ベースのテキスト消去器を提案する。
簡潔なエンコーダ・デコーダフレームワークに従えば、ViTEraserは様々なViTを容易に組み込んで長距離モデリングを強化することができる。
具体的には、エンコーダは、入力画像をViTブロックと埋め込み層を介して隠れた空間に階層的にマッピングし、デコーダは、隠れた特徴を徐々にViTブロックと分割層でテキスト消去画像にアップサンプリングする。
ViTEraserはテキストローカライゼーションと塗装を暗黙的に統合するので、テキストボックスセグメンテーションとマスク付き画像モデリングタスクにエンコーダとデコーダに焦点を当てた、SegMIMと呼ばれる新しいエンドツーエンド事前学習手法を提案する。
実験結果から,SegMIM を用いた ViTEraser はSTR 上での最先端性能をかなりのマージンで達成し,他のタスクである textit{e.g.} に拡張した場合に強い一般化能力を示すことが明らかとなった。
さらに我々は,vit を str フィールドに適用するための深い洞察を提供する vit ベースのエンコーダデコーダのアーキテクチャ,事前トレーニング,スケーラビリティを総合的に検討する。
コードはhttps://github.com/shannanyinxiang/viteraserで入手できる。
関連論文リスト
- Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling [44.70973195966149]
既存のシーンテキスト削除(STR)タスクは、高価なピクセルレベルのラベリングのため、トレーニングデータ不足に悩まされる。
我々は,低コストなテキスト検出ラベルを用いたSTRモデルの事前学習が可能なテキスト対応マスク付き画像モデリングアルゴリズム(TMIM)を提案する。
我々の方法は、他のプリトレイン法より優れ、最先端のパフォーマンス(SCUT-EnsTextの37.35 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-09-20T11:52:57Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - FETNet: Feature Erasing and Transferring Network for Scene Text Removal [14.763369952265796]
Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
論文 参考訳(メタデータ) (2023-06-16T02:38:30Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Masked Vision-Language Transformers for Scene Text Recognition [10.057137581956363]
Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
論文 参考訳(メタデータ) (2022-11-09T10:28:23Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。