論文の概要: Self-Supervised Text Erasing with Controllable Image Synthesis
- arxiv url: http://arxiv.org/abs/2204.12743v1
- Date: Wed, 27 Apr 2022 07:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 21:39:47.088416
- Title: Self-Supervised Text Erasing with Controllable Image Synthesis
- Title(参考訳): 制御可能な画像合成による自己教師付きテキスト消去
- Authors: Gangwei Jiang, Shiyao Wang, Tiezheng Ge, Yuning Jiang, Ying Wei, Defu
Lian
- Abstract要約: 我々は、新しい自己教師型テキスト消去フレームワークを提案することによって、教師なしシナリオを研究する。
まず,様々なスタイルのテキストを用いた合成画像を生成するために,スタイル認識型画像合成関数を設計する。
合成データと実世界のデータ間のテキストスタイルのギャップを埋めるために、合成機構を制御するためのポリシーネットワークを構築する。
提案手法はPosterEraseと広く使われているSCUT-Entextデータセットで広く評価されている。
- 参考スコア(独自算出の注目度): 33.60862002159276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts on scene text erasing have shown promising results. However,
existing methods require rich yet costly label annotations to obtain robust
models, which limits the use for practical applications. To this end, we study
an unsupervised scenario by proposing a novel Self-supervised Text Erasing
(STE) framework that jointly learns to synthesize training images with erasure
ground-truth and accurately erase texts in the real world. We first design a
style-aware image synthesis function to generate synthetic images with diverse
styled texts based on two synthetic mechanisms. To bridge the text style gap
between the synthetic and real-world data, a policy network is constructed to
control the synthetic mechanisms by picking style parameters with the guidance
of two specifically designed rewards. The synthetic training images with
erasure ground-truth are then fed to train a coarse-to-fine erasing network. To
produce better erasing outputs, a triplet erasure loss is designed to enforce
the refinement stage to recover background textures. Moreover, we provide a new
dataset (called PosterErase), which contains 60K high-resolution posters with
texts and is more challenging for the text erasing task. The proposed method
has been extensively evaluated with both PosterErase and the widely-used
SCUT-Enstext dataset. Notably, on PosterErase, our unsupervised method achieves
5.07 in terms of FID, with a relative performance of 20.9% over existing
supervised baselines.
- Abstract(参考訳): シーンテキストの消去に関する最近の取り組みは有望な成果を示している。
しかし、既存のメソッドは堅牢なモデルを得るためにリッチで費用のかかるアノテーションを必要とするため、実用的なアプリケーションの使用は制限される。
そこで本研究では,実世界のテキストを正確に消去し,地上の真実を解消してトレーニング画像の合成を共同で学習する,STE(Self-supervised Text Erasing)フレームワークを提案する。
まず,2つの合成機構に基づいて,多種多様なテキストを用いた合成画像を生成する。
合成データと実世界のデータとのテキストスタイルギャップを橋渡しするために、特別に設計された2つの報酬のガイダンスにより、スタイルパラメータを選択して合成メカニズムを制御するポリシーネットワークを構築する。
地上を消去した合成訓練画像は、粗い消去ネットワークを訓練するために供給される。
より良い消去出力を得るため、背景テクスチャを回復するための改良段階を強制するために三重項消去損失を設計する。
さらに,テキスト付き60k高分解能ポスターを含む新しいデータセット(posterase)を提供するとともに,テキスト消去作業をより困難にする。
提案手法はPosterEraseと広く使われているSCUT-Enstextデータセットで広く評価されている。
特にPosterEraseでは,既存の教師なしベースラインに比べて20.9%の相対的な性能でFIDの5.07を達成している。
関連論文リスト
- TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Generating Non-Stationary Textures using Self-Rectification [70.91414475376698]
本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。
本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正する,新しい2段階のアプローチを提案する。
提案手法は「自己修正(self-rectification)」と呼ばれ、このターゲットを自動的にコヒーレントでシームレスなテクスチャに洗練する。
論文 参考訳(メタデータ) (2024-01-05T15:07:05Z) - Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors [54.80516786370663]
FreeRealは、SDと実際のデータの相補的な強みを可能にする、実際のドメイン整合型事前トレーニングパラダイムである。
GlyphMixは、合成画像を落書きのようなユニットとして実際の画像に埋め込む。
FreeRealは、4つの公開データセットで、既存の事前トレーニングメソッドよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-12-08T15:10:55Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Progressive Scene Text Erasing with Self-Supervision [7.118419154170154]
シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
論文 参考訳(メタデータ) (2022-07-23T09:05:13Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。