論文の概要: On Manipulating Scene Text in the Wild with Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.00734v1
- Date: Wed, 1 Nov 2023 11:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:04:49.737369
- Title: On Manipulating Scene Text in the Wild with Diffusion Models
- Title(参考訳): 拡散モデルを用いた野生のシーンテキスト操作について
- Authors: Joshua Santoso, Christian Simon, Williem Pao
- Abstract要約: 本稿では,Diffusion-BasEd Scene Text Operation Network(DBEST)を紹介する。
具体的には,2つの適応戦略,すなわちワンショットスタイル適応とテキスト認識指導を設計する。
本手法は,文字レベル評価のためのデータセットの94.15%と98.12%を達成する。
- 参考スコア(独自算出の注目度): 4.034781390227754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained attention for image editing yielding impressive
results in text-to-image tasks. On the downside, one might notice that
generated images of stable diffusion models suffer from deteriorated details.
This pitfall impacts image editing tasks that require information preservation
e.g., scene text editing. As a desired result, the model must show the
capability to replace the text on the source image to the target text while
preserving the details e.g., color, font size, and background. To leverage the
potential of diffusion models, in this work, we introduce Diffusion-BasEd Scene
Text manipulation Network so-called DBEST. Specifically, we design two
adaptation strategies, namely one-shot style adaptation and text-recognition
guidance. In experiments, we thoroughly assess and compare our proposed method
against state-of-the-arts on various scene text datasets, then provide
extensive ablation studies for each granularity to analyze our performance
gain. Also, we demonstrate the effectiveness of our proposed method to
synthesize scene text indicated by competitive Optical Character Recognition
(OCR) accuracy. Our method achieves 94.15% and 98.12% on COCO-text and
ICDAR2013 datasets for character-level evaluation.
- Abstract(参考訳): 拡散モデルが画像編集に注目され、テキストから画像へのタスクで印象的な結果が得られた。
マイナス面は、安定拡散モデルの生成された画像が細部が劣化していることに気づくかもしれない。
この落とし穴は、例えばシーンテキスト編集などの情報保存を必要とする画像編集タスクに影響を与える。
望ましい結果として、モデルは、色、フォントサイズ、背景などの詳細を保存しながら、ソースイメージ上のテキストをターゲットテキストに置き換える機能を示す必要がある。
本稿では拡散モデルの可能性を活用するために,Diffusion-BasEd Scene Text Operation Network(DBEST)を提案する。
具体的には,2つの適応戦略,すなわちワンショットスタイル適応とテキスト認識指導を設計する。
実験では,提案手法を各種シーンテキストデータセットの最先端技術と比較し,各粒度に対する広範囲なアブレーション研究を行い,性能評価を行った。
また、競合する光学文字認識(OCR)精度で示されるシーンテキストを合成するための提案手法の有効性を示す。
文字レベル評価のためのCOCOテキストおよびICCAR2013データセット上で94.15%と98.12%を達成する。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - DiffusionSTR: Diffusion Model for Scene Text Recognition [0.0]
Diffusion Model for Scene Text Recognition (DiffusionSTR)は、エンドツーエンドのテキスト認識フレームワークである。
拡散モデルがテキスト認識に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T06:09:32Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。