論文の概要: DeepEraser: Deep Iterative Context Mining for Generic Text Eraser
- arxiv url: http://arxiv.org/abs/2402.19108v1
- Date: Thu, 29 Feb 2024 12:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:54:04.229724
- Title: DeepEraser: Deep Iterative Context Mining for Generic Text Eraser
- Title(参考訳): DeepEraser: ジェネリックテキスト消去のための深層反復コンテキストマイニング
- Authors: Hao Feng, Wendi Wang, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang
Li
- Abstract要約: DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
- 参考スコア(独自算出の注目度): 103.39279154750172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present DeepEraser, an effective deep network for generic
text removal. DeepEraser utilizes a recurrent architecture that erases the text
in an image via iterative operations. Our idea comes from the process of
erasing pencil script, where the text area designated for removal is subject to
continuous monitoring and the text is attenuated progressively, ensuring a
thorough and clean erasure. Technically, at each iteration, an innovative
erasing module is deployed, which not only explicitly aggregates the previous
erasing progress but also mines additional semantic context to erase the target
text. Through iterative refinements, the text regions are progressively
replaced with more appropriate content and finally converge to a relatively
accurate status. Furthermore, a custom mask generation strategy is introduced
to improve the capability of DeepEraser for adaptive text removal, as opposed
to indiscriminately removing all the text in an image. Our DeepEraser is
notably compact with only 1.4M parameters and trained in an end-to-end manner.
To verify its effectiveness, extensive experiments are conducted on several
prevalent benchmarks, including SCUT-Syn, SCUT-EnsText, and Oxford Synthetic
text dataset. The quantitative and qualitative results demonstrate the
effectiveness of our DeepEraser over the state-of-the-art methods, as well as
its strong generalization ability in custom mask text removal. The codes and
pre-trained models are available at https://github.com/fh2019ustc/DeepEraser
- Abstract(参考訳): 本稿では,ジェネリックテキスト除去に有効なディープネットワークであるDeepEraserを提案する。
deepaserは反復操作によって画像中のテキストを消去するリカレントアーキテクチャを使用している。
我々の考え方は、除去のために指定されたテキスト領域が継続的に監視され、テキストが徐々に減衰し、徹底的でクリーンな消去が保証される、鉛筆文字の消去プロセスに端を発する。
技術的には、各イテレーションでイノベーティブな消去モジュールがデプロイされ、以前の消去の進捗を明示的に集約するだけでなく、ターゲットのテキストを削除するために追加のセマンティックコンテキストをマイニングする。
反復的な改善により、テキスト領域は徐々により適切なコンテンツに置き換えられ、最終的に比較的正確な状態に収束する。
さらに、画像中のすべてのテキストを無差別に削除するのに対して、適応テキスト除去のためのdeeperaserの能力を改善するために、カスタムマスク生成戦略が導入された。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされています。
その有効性を検証するために、SCUT-Syn、SCUT-EnsText、Oxford Syntheticテキストデータセットなど、いくつかの一般的なベンチマークで広範な実験が行われた。
定量的および定性的な結果から,DeepEraserの最先端手法に対する効果と,カスタムマスクテキスト除去における強力な一般化能力が示された。
コードと事前訓練されたモデルはhttps://github.com/fh2019ustc/DeepEraserで入手できる。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Progressive Scene Text Erasing with Self-Supervision [7.118419154170154]
シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
論文 参考訳(メタデータ) (2022-07-23T09:05:13Z) - Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。
ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。
本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-09T15:44:36Z) - A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。
PERTはSTRタスクをいくつかの消去段階に分解する。
PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文 参考訳(メタデータ) (2021-06-24T14:06:06Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。