論文の概要: Stroke-Based Scene Text Erasing Using Synthetic Data
- arxiv url: http://arxiv.org/abs/2104.11493v1
- Date: Fri, 23 Apr 2021 09:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:07:14.346441
- Title: Stroke-Based Scene Text Erasing Using Synthetic Data
- Title(参考訳): 合成データを用いたストロークに基づくシーンテキスト消去
- Authors: Zhengmi Tang, Tomo Miyazaki, Yoshihiro Sugaya, and Shinichiro Omachi
- Abstract要約: シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text erasing, which replaces text regions with reasonable content in
natural images, has drawn attention in the computer vision community in recent
years. There are two potential subtasks in scene text erasing: text detection
and image inpainting. Either sub-task requires considerable data to achieve
better performance; however, the lack of a large-scale real-world scene-text
removal dataset allows the existing methods to not work in full strength. To
avoid the limitation of the lack of pairwise real-world data, we enhance and
make full use of the synthetic text and consequently train our model only on
the dataset generated by the improved synthetic text engine. Our proposed
network contains a stroke mask prediction module and background inpainting
module that can extract the text stroke as a relatively small hole from the
text image patch to maintain more background content for better inpainting
results. This model can partially erase text instances in a scene image with a
bounding box provided or work with an existing scene text detector for
automatic scene text erasing. The experimental results of qualitative
evaluation and quantitative evaluation on the SCUT-Syn, ICDAR2013, and
SCUT-EnsText datasets demonstrate that our method significantly outperforms
existing state-of-the-art methods even when trained on real-world data.
- Abstract(参考訳): 近年,自然画像のテキスト領域を合理的な内容に置き換えたシーンテキスト消去がコンピュータビジョンコミュニティで注目を集めている。
シーンのテキスト消去には、テキスト検出と画像インパインティングという2つのサブタスクが考えられる。
どちらのサブタスクもパフォーマンス向上のためにかなりのデータを必要とするが、大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
実世界データのペア化の限界を回避するため,合成テキストの完全活用を図り,改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
提案するネットワークは,テキストイメージパッチから比較的小さな穴としてテキストストロークを抽出し,より多くのバックグラウンドコンテンツを保存し,より優れたインペイント結果を得ることのできる,ストロークマスク予測モジュールとバックグラウンドインペイントモジュールを備える。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
SCUT-Syn, ICDAR2013, SCUT-EnsTextデータセットの定性評価および定量的評価実験の結果, 実世界のデータを用いて訓練しても, 既存の最先端手法よりも有意に優れていることが示された。
関連論文リスト
- WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - Progressive Scene Text Erasing with Self-Supervision [7.118419154170154]
シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
論文 参考訳(メタデータ) (2022-07-23T09:05:13Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。