論文の概要: FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning
- arxiv url: http://arxiv.org/abs/2312.12142v1
- Date: Tue, 19 Dec 2023 13:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:24:27.281864
- Title: FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning
- Title(参考訳): fontdiffuser:マルチスケールコンテンツアグリゲーションとスタイルコントラスト学習による分節拡散によるワンショットフォント生成
- Authors: Zhenhua Yang, Dezhi Peng, Yuxin Kong, Yuyi Zhang, Cong Yao, Lianwen
Jin
- Abstract要約: FontDiffuserは拡散に基づく画像から画像へのワンショットフォント生成手法である。
従来の方法と比較して、複雑な文字と大きなスタイルの変更を一貫して排他的に引き継いでいる。
- 参考スコア(独自算出の注目度): 45.696909070215476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic font generation is an imitation task, which aims to create a font
library that mimics the style of reference images while preserving the content
from source images. Although existing font generation methods have achieved
satisfactory performance, they still struggle with complex characters and large
style variations. To address these issues, we propose FontDiffuser, a
diffusion-based image-to-image one-shot font generation method, which
innovatively models the font imitation task as a noise-to-denoise paradigm. In
our method, we introduce a Multi-scale Content Aggregation (MCA) block, which
effectively combines global and local content cues across different scales,
leading to enhanced preservation of intricate strokes of complex characters.
Moreover, to better manage the large variations in style transfer, we propose a
Style Contrastive Refinement (SCR) module, which is a novel structure for style
representation learning. It utilizes a style extractor to disentangle styles
from images, subsequently supervising the diffusion model via a meticulously
designed style contrastive loss. Extensive experiments demonstrate
FontDiffuser's state-of-the-art performance in generating diverse characters
and styles. It consistently excels on complex characters and large style
changes compared to previous methods. The code is available at
https://github.com/yeungchenwa/FontDiffuser.
- Abstract(参考訳): 自動フォント生成は、ソース画像からコンテンツを保存しながら参照画像のスタイルを模倣するフォントライブラリを作成することを目的とした模倣タスクである。
既存のフォント生成手法は良好な性能を保っているが、複雑な文字や大きなスタイルのバリエーションに苦戦している。
そこで本稿では,フォント模倣タスクをノイズ・ツー・デノイズパラダイムとして革新的にモデル化する拡散型画像から画像へのワンショットフォント生成手法であるfontdiffuserを提案する。
本手法では,マルチスケールコンテンツ集約(MCA)ブロックを導入し,グローバルなコンテンツキューとローカルなコンテンツキューを異なるスケールで効果的に組み合わせ,複雑な文字の複雑なストロークの保存を促進させる。
さらに,スタイル伝達における大きなバリエーションを管理するために,スタイル表現学習のための新しい構造であるスタイルコントラストリファインメント(Style Contrastive Refinement, SCR)モジュールを提案する。
画像からスタイルを分離するスタイル抽出器を使用し、細心の注意を払ってデザインされたスタイルコントラスト損失を介して拡散モデルを監督する。
広範な実験により、fontdiffuserが様々な文字やスタイルを生成する際の最先端のパフォーマンスを示す。
従来の方法に比べて、複雑な文字や大きなスタイル変更に一貫して優れている。
コードはhttps://github.com/yeungchenwa/fontdiffuserで入手できる。
関連論文リスト
- JoyType: A Robust Design for Multilingual Visual Text Creation [14.441897362967344]
複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T04:23:17Z) - CF-Font: Content Fusion for Few-shot Font Generation [63.79915037830131]
本稿では、コンテンツ特徴をベースフォントのコンテンツ特徴によって定義される線形空間に投影するコンテンツ融合モジュール(CFM)を提案する。
提案手法では,参照画像のスタイル表現ベクトルの最適化も可能である。
我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-03-24T14:18:40Z) - Few-shot Font Generation by Learning Style Difference and Similarity [84.76381937516356]
異なるスタイルの違いと同一スタイルの類似性(DS-Font)を学習する新しいフォント生成手法を提案する。
具体的には,提案するクラスタレベルコントラシブ・スタイル(CCS)の損失により,スタイルエンコーディングを実現する多層型プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-01-24T13:57:25Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation [13.569449355929574]
本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
論文 参考訳(メタデータ) (2022-04-11T13:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。