論文の概要: A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks
- arxiv url: http://arxiv.org/abs/2106.13029v1
- Date: Thu, 24 Jun 2021 14:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 20:15:27.741932
- Title: A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks
- Title(参考訳): 単純かつ強固なベースライン:漸進的に地域ベースのシーンテキスト除去ネットワーク
- Authors: Yuxin Wang, Hongtao Xie, Shancheng Fang, Yadong Qu and Yongdong Zhang
- Abstract要約: 本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。
PERTはSTRタスクをいくつかの消去段階に分解する。
PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
- 参考スコア(独自算出の注目度): 72.32357172679319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing scene text removal methods mainly train an elaborate network with
paired images to realize the function of text localization and background
reconstruction simultaneously, but there exists two problems: 1) lacking the
exhaustive erasure of text region and 2) causing the excessive erasure to
text-free areas. To handle these issues, this paper provides a novel
ProgrEssively Region-based scene Text eraser (PERT), which introduces
region-based modification strategy to progressively erase the pixels in only
text region. Firstly, PERT decomposes the STR task to several erasing stages.
As each stage aims to take a further step toward the text-removed image rather
than directly regress to the final result, the decomposed operation reduces the
learning difficulty in each stage, and an exhaustive erasure result can be
obtained by iterating over lightweight erasing blocks with shared parameters.
Then, PERT introduces a region-based modification strategy to ensure the
integrity of text-free areas by decoupling text localization from erasure
process to guide the removal. Benefiting from the simplicity architecture, PERT
is a simple and strong baseline, and is easy to be followed and developed.
Extensive experiments demonstrate that PERT obtains the state-of-the-art
results on both synthetic and real-world datasets. Code is available
athttps://github.com/wangyuxin87/PERT.
- Abstract(参考訳): 既存のシーンテキスト除去手法では,テキストの局所化と背景復元を同時に行うために,精巧なネットワークとペア画像を同時に訓練するが,テキスト領域の徹底的な消去の欠如と,テキストフリー領域への過度な消去の2つの問題が存在する。
これらの問題に対処するため,本論文では,テキスト領域のみのピクセルを段階的に消去する領域ベースの修正戦略を導入する,ProgrEssively Region-based scene Text eraser (PERT)を提案する。
まず、PERTはSTRタスクをいくつかの消去段階に分解する。
各ステージは、最終結果に直接回帰するのではなく、テキスト削除画像に向かってさらに一歩進もうとするので、分解操作は、各ステージの学習難易度を低減し、軽量な消去ブロックを共有パラメータでイテレートすることで、徹底的な消去結果を得ることができる。
次に,テキストのローカライゼーションを消去プロセスから切り離し,テキストフリー領域の完全性を保証するために,領域ベースの修正戦略を導入する。
pertはシンプルなアーキテクチャの恩恵を受け、シンプルで強力なベースラインであり、従うのも開発も容易である。
大規模な実験により、PERTは合成データセットと実世界のデータセットの両方で最先端の結果を得ることを示した。
コードはhttps://github.com/wangyuxin87/pert。
関連論文リスト
- TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling [44.70973195966149]
既存のシーンテキスト削除(STR)タスクは、高価なピクセルレベルのラベリングのため、トレーニングデータ不足に悩まされる。
我々は,低コストなテキスト検出ラベルを用いたSTRモデルの事前学習が可能なテキスト対応マスク付き画像モデリングアルゴリズム(TMIM)を提案する。
我々の方法は、他のプリトレイン法より優れ、最先端のパフォーマンス(SCUT-EnsTextの37.35 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-09-20T11:52:57Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。