論文の概要: FETNet: Feature Erasing and Transferring Network for Scene Text Removal
- arxiv url: http://arxiv.org/abs/2306.09593v1
- Date: Fri, 16 Jun 2023 02:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:18:57.686611
- Title: FETNet: Feature Erasing and Transferring Network for Scene Text Removal
- Title(参考訳): FETNet:シーンテキスト削除のための機能消去・転送ネットワーク
- Authors: Guangtao Lyu, Kun Liu, Anna Zhu, Seiichi Uchida, Brian Kenji Iwana
- Abstract要約: Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
- 参考スコア(独自算出の注目度): 14.763369952265796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scene text removal (STR) task aims to remove text regions and recover the
background smoothly in images for private information protection. Most existing
STR methods adopt encoder-decoder-based CNNs, with direct copies of the
features in the skip connections. However, the encoded features contain both
text texture and structure information. The insufficient utilization of text
features hampers the performance of background reconstruction in text removal
regions. To tackle these problems, we propose a novel Feature Erasing and
Transferring (FET) mechanism to reconfigure the encoded features for STR in
this paper. In FET, a Feature Erasing Module (FEM) is designed to erase text
features. An attention module is responsible for generating the feature
similarity guidance. The Feature Transferring Module (FTM) is introduced to
transfer the corresponding features in different layers based on the attention
guidance. With this mechanism, a one-stage, end-to-end trainable network called
FETNet is constructed for scene text removal. In addition, to facilitate
research on both scene text removal and segmentation tasks, we introduce a
novel dataset, Flickr-ST, with multi-category annotations. A sufficient number
of experiments and ablation studies are conducted on the public datasets and
Flickr-ST. Our proposed method achieves state-of-the-art performance using most
metrics, with remarkably higher quality scene text removal results. The source
code of our work is available at:
\href{https://github.com/GuangtaoLyu/FETNet}{https://github.com/GuangtaoLyu/FETNet.
- Abstract(参考訳): シーンテキスト削除(STR)タスクは、テキスト領域を削除し、画像中の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
しかし、エンコードされた特徴はテキストテクスチャと構造情報の両方を含んでいる。
テキストの不十分な利用は、テキスト削除領域におけるバックグラウンド再構築のパフォーマンスを損なう。
そこで本稿では,strのエンコードされた特徴を再設定するための新しい機能消去・転送(fet)機構を提案する。
FETでは、FEM (Feature Erasing Module) はテキスト機能を削除するように設計されている。
注目モジュールは、機能の類似性ガイダンスを生成する責任がある。
FTM(Feature Transfering Module)は、アテンションガイダンスに基づいて異なるレイヤで対応する機能を転送するために導入された。
この機構により、シーンテキストの除去のために、FETNetと呼ばれるワンステージでエンドツーエンドのトレーニング可能なネットワークを構築する。
さらに,シーンのテキスト除去とセグメンテーションタスクの両方の研究を容易にするために,複数カテゴリアノテーションを備えた新しいデータセットであるflickr-stを提案する。
公開データセットとFlickr-STで十分な数の実験とアブレーション研究が行われた。
提案手法は,高画質のシーンテキスト除去結果を用いて,ほとんどの指標を用いて最先端の性能を実現する。
作業のソースコードは以下の通りである。 \href{https://github.com/GuangtaoLyu/FETNet}{https://github.com/GuangtaoLyu/FETNet。
関連論文リスト
- Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling [44.70973195966149]
既存のシーンテキスト削除(STR)タスクは、高価なピクセルレベルのラベリングのため、トレーニングデータ不足に悩まされる。
我々は,低コストなテキスト検出ラベルを用いたSTRモデルの事前学習が可能なテキスト対応マスク付き画像モデリングアルゴリズム(TMIM)を提案する。
我々の方法は、他のプリトレイン法より優れ、最先端のパフォーマンス(SCUT-EnsTextの37.35 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-09-20T11:52:57Z) - DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining [58.241008246380254]
シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
論文 参考訳(メタデータ) (2023-06-21T08:47:20Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification [78.45528514468836]
ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
上記の問題に対処するために,Semantically Self-Aligned Network (SSAN)を提案する。
ICFG-PEDESという新しいデータベースを構築。
論文 参考訳(メタデータ) (2021-07-27T08:26:47Z) - A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。
PERTはSTRタスクをいくつかの消去段階に分解する。
PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文 参考訳(メタデータ) (2021-06-24T14:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。