論文の概要: DiffSTR: Controlled Diffusion Models for Scene Text Removal
- arxiv url: http://arxiv.org/abs/2410.21721v1
- Date: Tue, 29 Oct 2024 04:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:35.254489
- Title: DiffSTR: Controlled Diffusion Models for Scene Text Removal
- Title(参考訳): DiffSTR:シーンテキスト除去のための拡散制御モデル
- Authors: Sanhita Pathak, Vinay Kaushik, Brejesh Lall,
- Abstract要約: Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
- 参考スコア(独自算出の注目度): 5.790630195329777
- License:
- Abstract: To prevent unauthorized use of text in images, Scene Text Removal (STR) has become a crucial task. It focuses on automatically removing text and replacing it with a natural, text-less background while preserving significant details such as texture, color, and contrast. Despite its importance in privacy protection, STR faces several challenges, including boundary artifacts, inconsistent texture and color, and preserving correct shadows. Most STR approaches estimate a text region mask to train a model, solving for image translation or inpainting to generate a text-free image. Thus, the quality of the generated image depends on the accuracy of the inpainting mask and the generator's capability. In this work, we leverage the superior capabilities of diffusion models in generating high-quality, consistent images to address the STR problem. We introduce a ControlNet diffusion model, treating STR as an inpainting task. To enhance the model's robustness, we develop a mask pretraining pipeline to condition our diffusion model. This involves training a masked autoencoder (MAE) using a combination of box masks and coarse stroke masks, and fine-tuning it using masks derived from our novel segmentation-based mask refinement framework. This framework iteratively refines an initial mask and segments it using the SLIC and Hierarchical Feature Selection (HFS) algorithms to produce an accurate final text mask. This improves mask prediction and utilizes rich textural information in natural scene images to provide accurate inpainting masks. Experiments on the SCUT-EnsText and SCUT-Syn datasets demonstrate that our method significantly outperforms existing state-of-the-art techniques.
- Abstract(参考訳): 画像中のテキストの不正使用を防止するため,シーンテキスト削除(STR)が重要課題となっている。
テクスチャ、色、コントラストといった重要な詳細を保存しながら、テキストを自動的に削除し、自然でテキストのないバックグラウンドに置き換えることに焦点を当てている。
プライバシー保護の重要性にもかかわらず、STRはバウンダリアーティファクト、一貫性のないテクスチャと色、正しい影の保存など、いくつかの課題に直面している。
ほとんどのSTRアプローチでは、テキスト領域マスクを推定してモデルをトレーニングし、画像翻訳やインペイントを解決し、テキストフリーな画像を生成する。
したがって、生成した画像の品質は、塗装マスクの精度とジェネレータの能力に依存する。
本研究では、STR問題に対処するために、高品質で一貫した画像を生成する上で、拡散モデルの優れた機能を利用する。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
モデルのロバスト性を高めるため,拡散モデルの条件付けを行うマスク事前学習パイプラインを開発した。
これは、ボックスマスクと粗いストロークマスクの組み合わせを用いてマスク付きオートエンコーダ(MAE)を訓練し、新しいセグメンテーションベースのマスクリファインメントフレームワークから派生したマスクを用いてそれを微調整することを含む。
このフレームワークは初期マスクを反復的に洗練し、SLIC and Hierarchical Feature Selection (HFS)アルゴリズムを用いて分割し、正確な最終テキストマスクを生成する。
これにより、マスクの予測が向上し、自然なシーン画像のリッチなテクスチャ情報を利用して、正確な塗装マスクを提供する。
SCUT-EnsText と SCUT-Syn のデータセットを用いた実験により,本手法が既存の最先端技術を大きく上回ることを示す。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。