論文の概要: Progressive Scene Text Erasing with Self-Supervision
- arxiv url: http://arxiv.org/abs/2207.11469v1
- Date: Sat, 23 Jul 2022 09:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:31:17.775494
- Title: Progressive Scene Text Erasing with Self-Supervision
- Title(参考訳): 自己スーパービジョンによるプログレッシブシーンテキスト消去
- Authors: Xiangcheng Du and Zhao Zhou and Yingbin Zheng and Xingjiao Wu and
Tianlong Ma and Cheng Jin
- Abstract要約: シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
- 参考スコア(独自算出の注目度): 7.118419154170154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text erasing seeks to erase text contents from scene images and current
state-of-the-art text erasing models are trained on large-scale synthetic data.
Although data synthetic engines can provide vast amounts of annotated training
samples, there are differences between synthetic and real-world data. In this
paper, we employ self-supervision for feature representation on unlabeled
real-world scene text images. A novel pretext task is designed to keep
consistent among text stroke masks of image variants. We design the Progressive
Erasing Network in order to remove residual texts. The scene text is erased
progressively by leveraging the intermediate generated results which provide
the foundation for subsequent higher quality results. Experiments show that our
method significantly improves the generalization of the text erasing task and
achieves state-of-the-art performance on public benchmarks.
- Abstract(参考訳): シーン画像からテキスト内容を消去しようとするシーンテキスト消去と、大規模合成データに基づいて現在最先端のテキスト消去モデルを訓練する。
データ合成エンジンは大量の注釈付きトレーニングサンプルを提供するが、合成データと実世界のデータには違いがある。
本稿では,無ラベル実世界シーンテキスト画像の特徴表現に自己スーパービジョンを用いる。
画像変形のテキストストロークマスク間で一貫性を保つために、新しいプリテキストタスクが設計されている。
残余テキストを削除するために,プログレッシブ消去ネットワークを設計する。
その後の高品質な結果の基礎となる中間生成結果を活用することにより、シーンテキストを徐々に消去する。
実験の結果,本手法はテキスト消去タスクの一般化を著しく改善し,公開ベンチマーク上での最先端性能を実現する。
関連論文リスト
- DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Self-Supervised Text Erasing with Controllable Image Synthesis [33.60862002159276]
我々は、新しい自己教師型テキスト消去フレームワークを提案することによって、教師なしシナリオを研究する。
まず,様々なスタイルのテキストを用いた合成画像を生成するために,スタイル認識型画像合成関数を設計する。
合成データと実世界のデータ間のテキストスタイルのギャップを埋めるために、合成機構を制御するためのポリシーネットワークを構築する。
提案手法はPosterEraseと広く使われているSCUT-Entextデータセットで広く評価されている。
論文 参考訳(メタデータ) (2022-04-27T07:21:55Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。