論文の概要: Diff-Font: Diffusion Model for Robust One-Shot Font Generation
- arxiv url: http://arxiv.org/abs/2212.05895v1
- Date: Mon, 12 Dec 2022 13:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:56:38.213273
- Title: Diff-Font: Diffusion Model for Robust One-Shot Font Generation
- Title(参考訳): Diff-Font:ロバストワンショットフォント生成のための拡散モデル
- Authors: Haibin He, Xinyuan Chen, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao,
Yu Qiao
- Abstract要約: Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 110.45944936952309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Font generation is a difficult and time-consuming task, especially in those
languages using ideograms that have complicated structures with a large number
of characters, such as Chinese. To solve this problem, few-shot font generation
and even one-shot font generation have attracted a lot of attention. However,
most existing font generation methods may still suffer from (i) large
cross-font gap challenge; (ii) subtle cross-font variation problem; and (iii)
incorrect generation of complicated characters. In this paper, we propose a
novel one-shot font generation method based on a diffusion model, named
Diff-Font, which can be stably trained on large datasets. The proposed model
aims to generate the entire font library by giving only one sample as the
reference. Specifically, a large stroke-wise dataset is constructed, and a
stroke-wise diffusion model is proposed to preserve the structure and the
completion of each generated character. To our best knowledge, the proposed
Diff-Font is the first work that developed diffusion models to handle the font
generation task. The well-trained Diff-Font is not only robust to font gap and
font variation, but also achieved promising performance on difficult character
generation. Compared to previous font generation methods, our model reaches
state-of-the-art performance both qualitatively and quantitatively.
- Abstract(参考訳): フォント生成は困難で時間を要する作業であり、特に中国語など多数の文字を持つ複雑な構造を持つイデオグラムを用いた言語では特に困難である。
この問題を解決するために、少数ショットフォント生成やワンショットフォント生成さえも注目されている。
しかし、既存のフォント生成メソッドの多くは、まだ苦しむ可能性がある。
(i)大規模なクロスファントギャップチャレンジ
(二)微妙なクロスファント変動問題、及び
(三)複雑な文字を誤って生成すること。
本稿では,大きなデータセット上で安定的に学習できる拡散モデルに基づく新しいワンショットフォント生成法diff-fontを提案する。
提案モデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
具体的には、大きなストロークワイドデータセットを構築し、各生成された文字の構造と完了を保存するためのストロークワイド拡散モデルを提案する。
我々の知る限りでは、フォント生成タスクを処理する拡散モデルを開発した最初のDiff-Fontが提案されている。
十分に訓練されたdiff-fontはフォントギャップやフォントのバリエーションに頑健なだけでなく、難しい文字生成でも有望な性能を達成している。
従来のフォント生成手法と比較して,本モデルは質的かつ定量的に,最先端の性能に達する。
関連論文リスト
- DiffCJK: Conditional Diffusion Model for High-Quality and Wide-coverage CJK Character Generation [1.0044057719679087]
本稿では,単一の条件付き標準グリフ形式から,対象とするスタイルでグリフを生成する新しい拡散法を提案する。
提案手法は,CJK以外の中国語にヒントを得たスクリプトに対して,目覚ましいゼロショットの一般化機能を示す。
要約して,提案手法は,CJK文字に対する高品質な生成モデル支援フォント作成への扉を開く。
論文 参考訳(メタデータ) (2024-04-08T05:58:07Z) - FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning [45.696909070215476]
FontDiffuserは拡散に基づく画像から画像へのワンショットフォント生成手法である。
従来の方法と比較して、複雑な文字と大きなスタイルの変更を一貫して排他的に引き継いでいる。
論文 参考訳(メタデータ) (2023-12-19T13:23:20Z) - DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - CF-Font: Content Fusion for Few-shot Font Generation [63.79915037830131]
本稿では、コンテンツ特徴をベースフォントのコンテンツ特徴によって定義される線形空間に投影するコンテンツ融合モジュール(CFM)を提案する。
提案手法では,参照画像のスタイル表現ベクトルの最適化も可能である。
我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-03-24T14:18:40Z) - XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation [13.569449355929574]
本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
論文 参考訳(メタデータ) (2022-04-11T13:34:40Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - DG-Font: Deformable Generative Networks for Unsupervised Font Generation [14.178381391124036]
非監視フォント生成(DGFont)のための新しい変形可能な生成ネットワークを提案する。
本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。
実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。
論文 参考訳(メタデータ) (2021-04-07T11:32:32Z) - Few-shot Compositional Font Generation with Dual Memory [16.967987801167514]
我々は、新しいフォント生成フレームワークDual Memory-augmented Font Generation Network (DM-Font)を提案する。
我々は、構成性を活用するために、メモリコンポーネントとグローバルコンテキスト認識をジェネレータに採用する。
韓国手書きフォントとタイ手書きフォントの実験では,本手法が忠実なスタイリングによるサンプルの品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-05-21T08:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。