論文の概要: Typographic Text Generation with Off-the-Shelf Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.14314v1
- Date: Thu, 22 Feb 2024 06:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:15:08.302621
- Title: Typographic Text Generation with Off-the-Shelf Diffusion Model
- Title(参考訳): 市販拡散モデルを用いたタイポグラフィーテキスト生成
- Authors: KhayTze Peong, Seiichi Uchida, Daichi Haraguchi
- Abstract要約: 本稿では,タイポグラフィのテキストを付加・修正するタイポグラフィテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionを組み合わせた新しいシステムである。
- 参考スコア(独自算出の注目度): 7.542892664684078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diffusion-based generative models show promise in their ability to
generate text images, but limitations in specifying the styles of the generated
texts render them insufficient in the realm of typographic design. This paper
proposes a typographic text generation system to add and modify text on
typographic designs while specifying font styles, colors, and text effects. The
proposed system is a novel combination of two off-the-shelf methods for
diffusion models, ControlNet and Blended Latent Diffusion. The former functions
to generate text images under the guidance of edge conditions specifying stroke
contours. The latter blends latent noise in Latent Diffusion Models (LDM) to
add typographic text naturally onto an existing background. We first show that
given appropriate text edges, ControlNet can generate texts in specified fonts
while incorporating effects described by prompts. We further introduce text
edge manipulation as an intuitive and customizable way to produce texts with
complex effects such as ``shadows'' and ``reflections''. Finally, with the
proposed system, we successfully add and modify texts on a predefined
background while preserving its overall coherence.
- Abstract(参考訳): 近年の拡散型生成モデルでは, テキスト画像の生成能力は高いが, 生成したテキストのスタイルに制限があるため, タイポグラフィー設計の領域では不十分である。
本稿では,フォントスタイルや色,テキスト効果を規定しながら,フォントデザインにテキストを追加・修正するタイポグラフィーテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionの組み合わせである。
前者は、ストローク輪郭を指定するエッジ条件に基づいてテキスト画像を生成する機能を持つ。
後者は、Latent Diffusion Models (LDM) の遅延ノイズをブレンドして、入力テキストを既存の背景に自然に追加する。
まず、適切なテキストエッジが与えられた場合、制御ネットは、プロンプトによって記述されたエフェクトを組み込んで、特定のフォントでテキストを生成することができることを示す。
さらに, ``shadows'' や ``reflections'' といった複雑な効果を持つテキストを生成するための直感的でカスタマイズ可能な方法として,テキストエッジ操作を導入する。
最後に,提案システムを用いて,その全体コヒーレンスを維持しつつ,事前定義された背景にテキストの追加と修正に成功した。
関連論文リスト
- First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。
SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文 参考訳(メタデータ) (2024-06-03T07:20:34Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。