論文の概要: ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining
- arxiv url: http://arxiv.org/abs/2306.12106v2
- Date: Sun, 18 Feb 2024 14:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:35:09.704106
- Title: ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining
- Title(参考訳): ViTEraser:SegMIMプレトレーニングによるシーンテキスト除去のためのビジョントランスフォーマーのパワーを損なう
- Authors: Dezhi Peng, Chongyu Liu, Yuliang Liu, Lianwen Jin
- Abstract要約: シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
- 参考スコア(独自算出の注目度): 58.241008246380254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text removal (STR) aims at replacing text strokes in natural scenes
with visually coherent backgrounds. Recent STR approaches rely on iterative
refinements or explicit text masks, resulting in high complexity and
sensitivity to the accuracy of text localization. Moreover, most existing STR
methods adopt convolutional architectures while the potential of vision
Transformers (ViTs) remains largely unexplored. In this paper, we propose a
simple-yet-effective ViT-based text eraser, dubbed ViTEraser. Following a
concise encoder-decoder framework, ViTEraser can easily incorporate various
ViTs to enhance long-range modeling. Specifically, the encoder hierarchically
maps the input image into the hidden space through ViT blocks and patch
embedding layers, while the decoder gradually upsamples the hidden features to
the text-erased image with ViT blocks and patch splitting layers. As ViTEraser
implicitly integrates text localization and inpainting, we propose a novel
end-to-end pretraining method, termed SegMIM, which focuses the encoder and
decoder on the text box segmentation and masked image modeling tasks,
respectively. Experimental results demonstrate that ViTEraser with SegMIM
achieves state-of-the-art performance on STR by a substantial margin and
exhibits strong generalization ability when extended to other tasks,
\textit{e.g.}, tampered scene text detection. Furthermore, we comprehensively
explore the architecture, pretraining, and scalability of the ViT-based
encoder-decoder for STR, which provides deep insights into the application of
ViT to the STR field. Code is available at
https://github.com/shannanyinxiang/ViTEraser.
- Abstract(参考訳): シーンテキスト除去(str)は、自然シーンのテキストストロークを視覚的なコヒーレントな背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
さらに、既存のSTRメソッドの多くは畳み込みアーキテクチャを採用しているが、視覚変換器(ViT)の可能性はほとんど未検討である。
本稿では, ViTEraser と呼ばれる, 単純かつ効率の良い ViT ベースのテキスト消去器を提案する。
簡潔なエンコーダ・デコーダフレームワークに従えば、ViTEraserは様々なViTを容易に組み込んで長距離モデリングを強化することができる。
具体的には、エンコーダは、入力画像をViTブロックと埋め込み層を介して隠れた空間に階層的にマッピングし、デコーダは、隠れた特徴を徐々にViTブロックと分割層でテキスト消去画像にアップサンプリングする。
ViTEraserはテキストローカライゼーションと塗装を暗黙的に統合するので、テキストボックスセグメンテーションとマスク付き画像モデリングタスクにエンコーダとデコーダに焦点を当てた、SegMIMと呼ばれる新しいエンドツーエンド事前学習手法を提案する。
実験結果から,SegMIM を用いた ViTEraser はSTR 上での最先端性能をかなりのマージンで達成し,他のタスクである textit{e.g.} に拡張した場合に強い一般化能力を示すことが明らかとなった。
さらに我々は,vit を str フィールドに適用するための深い洞察を提供する vit ベースのエンコーダデコーダのアーキテクチャ,事前トレーニング,スケーラビリティを総合的に検討する。
コードはhttps://github.com/shannanyinxiang/viteraserで入手できる。
関連論文リスト
- SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - FETNet: Feature Erasing and Transferring Network for Scene Text Removal [14.763369952265796]
Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
論文 参考訳(メタデータ) (2023-06-16T02:38:30Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model [73.33909351531463]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Masked Vision-Language Transformers for Scene Text Recognition [10.057137581956363]
Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
論文 参考訳(メタデータ) (2022-11-09T10:28:23Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。