論文の概要: FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
- arxiv url: http://arxiv.org/abs/2406.08392v1
- Date: Wed, 12 Jun 2024 16:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:57:07.879348
- Title: FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
- Title(参考訳): FontStudio:コヒーレントかつ一貫性のあるフォント効果生成のための形状適応拡散モデル
- Authors: Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan,
- Abstract要約: 本研究の目的は,多言語フォントにおけるテキストエフェクトの生成である。
与えられた形状を解釈できる新しい形状適応拡散モデルを提案する。
また、生成した参照文字から他へテクスチャを転送するための学習不要な形状適応型エフェクト転送手法を提案する。
- 参考スコア(独自算出の注目度): 38.730628018627975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the application of modern diffusion-based text-to-image generation models for creating artistic fonts, traditionally the domain of professional designers, has garnered significant interest. Diverging from the majority of existing studies that concentrate on generating artistic typography, our research aims to tackle a novel and more demanding challenge: the generation of text effects for multilingual fonts. This task essentially requires generating coherent and consistent visual content within the confines of a font-shaped canvas, as opposed to a traditional rectangular canvas. To address this task, we introduce a novel shape-adaptive diffusion model capable of interpreting the given shape and strategically planning pixel distributions within the irregular canvas. To achieve this, we curate a high-quality shape-adaptive image-text dataset and incorporate the segmentation mask as a visual condition to steer the image generation process within the irregular-canvas. This approach enables the traditionally rectangle canvas-based diffusion model to produce the desired concepts in accordance with the provided geometric shapes. Second, to maintain consistency across multiple letters, we also present a training-free, shape-adaptive effect transfer method for transferring textures from a generated reference letter to others. The key insights are building a font effect noise prior and propagating the font effect information in a concatenated latent space. The efficacy of our FontStudio system is confirmed through user preference studies, which show a marked preference (78% win-rates on aesthetics) for our system even when compared to the latest unrivaled commercial product, Adobe Firefly.
- Abstract(参考訳): 近年,現代拡散型テキスト・画像生成モデルの芸術的フォント(伝統的にプロのデザイナーの領域)作成への応用が注目されている。
本研究は,多言語フォントに対するテキストエフェクトの生成という,新しい,より要求の高い課題に取り組むことを目的としている。
このタスクは基本的に、従来の長方形のキャンバスとは対照的に、フォント型のキャンバスの区切り内で、一貫性のある一貫した視覚的コンテンツを生成する必要がある。
この課題に対処するために,不規則キャンバス内の所定の形状を解釈し,戦略的に画素分布を計画することのできる,新しい形状適応拡散モデルを提案する。
そこで我々は,高品質な形状適応型画像テキストデータセットをキュレートし,セグメンテーションマスクを視覚条件として組み込んで不規則キャンバス内の画像生成プロセスを制御した。
このアプローチにより、従来の長方形キャンバスに基づく拡散モデルは、提供される幾何学的形状に応じて所望の概念を生成できる。
第2に,複数文字間の整合性を維持するために,生成した基準文字から他の文字へテクスチャを伝達するための学習自由な形状適応的効果伝達法を提案する。
鍵となる洞察は、フォント効果ノイズを事前に構築し、連結潜在空間におけるフォント効果情報を伝搬することである。
FontStudioシステムの有効性は,最新の商用製品であるAdobe Fireflyと比較しても,ユーザの嗜好調査によって確認された。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images by Disentanglement [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Typographic Text Generation with Off-the-Shelf Diffusion Model [7.542892664684078]
本稿では,タイポグラフィのテキストを付加・修正するタイポグラフィテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionを組み合わせた新しいシステムである。
論文 参考訳(メタデータ) (2024-02-22T06:15:51Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。
提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文 参考訳(メタデータ) (2023-03-16T19:12:52Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。