論文の概要: First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending
- arxiv url: http://arxiv.org/abs/2410.10168v1
- Date: Mon, 14 Oct 2024 05:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:34:41.241572
- Title: First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending
- Title(参考訳): テキストをレンダリングする背景を最初に作る:ビジュアルテキストのブレンディングのための新しいパラダイム
- Authors: Zhenhang Li, Yan Shu, Weichao Zeng, Dongbao Yang, Yu Zhou,
- Abstract要約: 背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
- 参考スコア(独自算出の注目度): 5.3798706094384725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models, known for their impressive image generation abilities, have played a pivotal role in the rise of visual text generation. Nevertheless, existing visual text generation methods often focus on generating entire images with text prompts, leading to imprecise control and limited practicality. A more promising direction is visual text blending, which focuses on seamlessly merging texts onto text-free backgrounds. However, existing visual text blending methods often struggle to generate high-fidelity and diverse images due to a shortage of backgrounds for synthesis and limited generalization capabilities. To overcome these challenges, we propose a new visual text blending paradigm including both creating backgrounds and rendering texts. Specifically, a background generator is developed to produce high-fidelity and text-free natural images. Moreover, a text renderer named GlyphOnly is designed for achieving visually plausible text-background integration. GlyphOnly, built on a Stable Diffusion framework, utilizes glyphs and backgrounds as conditions for accurate rendering and consistency control, as well as equipped with an adaptive text block exploration strategy for small-scale text rendering. We also explore several downstream applications based on our method, including scene text dataset synthesis for boosting scene text detectors, as well as text image customization and editing. Code and model will be available at \url{https://github.com/Zhenhang-Li/GlyphOnly}.
- Abstract(参考訳): 拡散モデルは、その印象的な画像生成能力で知られており、視覚テキスト生成の台頭において重要な役割を担っている。
それでも、既存のビジュアルテキスト生成手法は、しばしばテキストプロンプトで画像全体を生成することに重点を置いており、不正確な制御と限られた実用性に繋がる。
より有望な方向は、テキストをテキストのない背景にシームレスにマージすることに焦点を当てた、ビジュアルテキストブレンディングである。
しかし、既存のビジュアルテキストブレンディング手法は、合成と限定的な一般化能力の背景が不足しているため、高忠実で多様な画像を生成するのに苦労することが多い。
これらの課題を克服するために、背景作成とテキストの描画の両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
さらに、GlyphOnlyという名前のテキストレンダラーは、視覚的に可視なテキスト-背景の統合を実現するように設計されている。
安定拡散フレームワーク上に構築されたGlyphOnlyは、グリフと背景を正確なレンダリングと一貫性制御の条件として利用し、小規模なテキストレンダリングのための適応的なテキストブロック探索戦略を備えている。
また,シーンテキスト検出の高速化のためのシーンテキストデータセット合成や,テキスト画像のカスタマイズや編集など,本手法に基づくダウンストリームアプリケーションについても検討する。
コードとモデルは \url{https://github.com/Zhenhang-Li/GlyphOnly} で入手できる。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Typographic Text Generation with Off-the-Shelf Diffusion Model [7.542892664684078]
本稿では,タイポグラフィのテキストを付加・修正するタイポグラフィテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionを組み合わせた新しいシステムである。
論文 参考訳(メタデータ) (2024-02-22T06:15:51Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Scene Style Text Editing [7.399980683013072]
クアッドネット(QuadNet)は、前景のテキストスタイルを潜在機能空間に埋め込んで調整するフレームワークである。
実験によると、QuadNetは写真リアルなフォアグラウンドテキストを生成し、現実世界のシーンでソーステキストの影を避けることができる。
論文 参考訳(メタデータ) (2023-04-20T05:36:49Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。