論文の概要: Progressive Scene Text Erasing with Self-Supervision
- arxiv url: http://arxiv.org/abs/2207.11469v2
- Date: Fri, 28 Apr 2023 09:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 17:50:14.372888
- Title: Progressive Scene Text Erasing with Self-Supervision
- Title(参考訳): 自己スーパービジョンによるプログレッシブシーンテキスト消去
- Authors: Xiangcheng Du and Zhao Zhou and Yingbin Zheng and Xingjiao Wu and
Tianlong Ma and Cheng Jin
- Abstract要約: シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
- 参考スコア(独自算出の注目度): 7.118419154170154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text erasing seeks to erase text contents from scene images and current
state-of-the-art text erasing models are trained on large-scale synthetic data.
Although data synthetic engines can provide vast amounts of annotated training
samples, there are differences between synthetic and real-world data. In this
paper, we employ self-supervision for feature representation on unlabeled
real-world scene text images. A novel pretext task is designed to keep
consistent among text stroke masks of image variants. We design the Progressive
Erasing Network in order to remove residual texts. The scene text is erased
progressively by leveraging the intermediate generated results which provide
the foundation for subsequent higher quality results. Experiments show that our
method significantly improves the generalization of the text erasing task and
achieves state-of-the-art performance on public benchmarks.
- Abstract(参考訳): シーン画像からテキスト内容を消去しようとするシーンテキスト消去と、大規模合成データに基づいて現在最先端のテキスト消去モデルを訓練する。
データ合成エンジンは大量の注釈付きトレーニングサンプルを提供するが、合成データと実世界のデータには違いがある。
本稿では,無ラベル実世界シーンテキスト画像の特徴表現に自己スーパービジョンを用いる。
画像変形のテキストストロークマスク間で一貫性を保つために、新しいプリテキストタスクが設計されている。
残余テキストを削除するために,プログレッシブ消去ネットワークを設計する。
その後の高品質な結果の基礎となる中間生成結果を活用することにより、シーンテキストを徐々に消去する。
実験の結果,本手法はテキスト消去タスクの一般化を著しく改善し,公開ベンチマーク上での最先端性能を実現する。
関連論文リスト
- TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Self-Supervised Text Erasing with Controllable Image Synthesis [33.60862002159276]
我々は、新しい自己教師型テキスト消去フレームワークを提案することによって、教師なしシナリオを研究する。
まず,様々なスタイルのテキストを用いた合成画像を生成するために,スタイル認識型画像合成関数を設計する。
合成データと実世界のデータ間のテキストスタイルのギャップを埋めるために、合成機構を制御するためのポリシーネットワークを構築する。
提案手法はPosterEraseと広く使われているSCUT-Entextデータセットで広く評価されている。
論文 参考訳(メタデータ) (2022-04-27T07:21:55Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。