論文の概要: The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis
- arxiv url: http://arxiv.org/abs/2210.07489v1
- Date: Fri, 14 Oct 2022 03:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:52:59.232238
- Title: The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis
- Title(参考訳): 注意喚起と関心領域を考慮した意外なストレートフォワードシーンテキスト除去法:包括的モデル解析
- Authors: Hyeonsu Lee, Chankyu Choi
- Abstract要約: STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text removal (STR), a task of erasing text from natural scene images,
has recently attracted attention as an important component of editing text or
concealing private information such as ID, telephone, and license plate
numbers. While there are a variety of different methods for STR actively being
researched, it is difficult to evaluate superiority because previously proposed
methods do not use the same standardized training/evaluation dataset. We use
the same standardized training/testing dataset to evaluate the performance of
several previous methods after standardized re-implementation. We also
introduce a simple yet extremely effective Gated Attention (GA) and
Region-of-Interest Generation (RoIG) methodology in this paper. GA uses
attention to focus on the text stroke as well as the textures and colors of the
surrounding regions to remove text from the input image much more precisely.
RoIG is applied to focus on only the region with text instead of the entire
image to train the model more efficiently. Experimental results on the
benchmark dataset show that our method significantly outperforms existing
state-of-the-art methods in almost all metrics with remarkably higher-quality
results. Furthermore, because our model does not generate a text stroke mask
explicitly, there is no need for additional refinement steps or sub-models,
making our model extremely fast with fewer parameters. The dataset and code are
available at this https://github.com/naver/garnet.
- Abstract(参考訳): 自然シーン画像からテキストを消去する作業であるシーンテキスト除去(str)は、最近、テキストの編集や、id、電話、ナンバーナンバーなどのプライベートな情報を隠蔽する重要な要素として注目を集めている。
strを積極的に研究するための様々な方法が存在するが、従来提案されていた方法が同じ標準トレーニング/評価データセットを使用しないため、優位性を評価することは困難である。
私たちは、同じ標準トレーニング/テストデータセットを使用して、標準化された再実装後のいくつかの以前の方法のパフォーマンスを評価します。
また,本論文では,単純かつ極めて効果的なGated Attention(GA)とRerea-of-Interest Generation(RoIG)手法についても紹介する。
GAはテキストストロークや周辺地域のテクスチャや色に注目して、入力画像からテキストをより正確に除去する。
RoIGは、より効率的にモデルをトレーニングするために、画像全体ではなく、テキスト付きの領域のみに焦点を当てる。
ベンチマークデータセットにおける実験結果から,本手法は,既存の最先端手法をほぼすべての指標で比較し,極めて高品質な結果を得た。
さらに,本モデルではテキストストロークマスクを明示的に生成しないため,改良ステップやサブモデルの追加は不要であり,パラメータの少ないモデルでは極めて高速である。
データセットとコードは、このhttps://github.com/naver/garnetで入手できる。
関連論文リスト
- Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling [44.70973195966149]
既存のシーンテキスト削除(STR)タスクは、高価なピクセルレベルのラベリングのため、トレーニングデータ不足に悩まされる。
我々は,低コストなテキスト検出ラベルを用いたSTRモデルの事前学習が可能なテキスト対応マスク付き画像モデリングアルゴリズム(TMIM)を提案する。
我々の方法は、他のプリトレイン法より優れ、最先端のパフォーマンス(SCUT-EnsTextの37.35 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-09-20T11:52:57Z) - EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。