論文の概要: Text-Conditioned Diffusion Model for High-Fidelity Korean Font Generation
- arxiv url: http://arxiv.org/abs/2504.21325v1
- Date: Wed, 30 Apr 2025 05:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:24:50.281203
- Title: Text-Conditioned Diffusion Model for High-Fidelity Korean Font Generation
- Title(参考訳): 高忠実度韓国フォント生成のためのテキストコンディション拡散モデル
- Authors: Abdul Sami, Avinash Kumar, Irfanullah Memon, Youngwon Jo, Muhammad Rizwan, Jaeyoung Choi,
- Abstract要約: 自動フォント生成(AFG)は、スタイルイメージのごく一部の例を使用して新しいフォントを作成するプロセスである。
本稿では,高品質で多様な韓国のフォント画像を生成する拡散型AFG手法を提案する。
鍵となる革新はテキストエンコーダで、音素表現を処理し、正確で文脈的に正しい文字を生成する。
- 参考スコア(独自算出の注目度): 7.281838207050202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic font generation (AFG) is the process of creating a new font using only a few examples of the style images. Generating fonts for complex languages like Korean and Chinese, particularly in handwritten styles, presents significant challenges. Traditional AFGs, like Generative adversarial networks (GANs) and Variational Auto-Encoders (VAEs), are usually unstable during training and often face mode collapse problems. They also struggle to capture fine details within font images. To address these problems, we present a diffusion-based AFG method which generates high-quality, diverse Korean font images using only a single reference image, focusing on handwritten and printed styles. Our approach refines noisy images incrementally, ensuring stable training and visually appealing results. A key innovation is our text encoder, which processes phonetic representations to generate accurate and contextually correct characters, even for unseen characters. We used a pre-trained style encoder from DG FONT to effectively and accurately encode the style images. To further enhance the generation quality, we used perceptual loss that guides the model to focus on the global style of generated images. Experimental results on over 2000 Korean characters demonstrate that our model consistently generates accurate and detailed font images and outperforms benchmark methods, making it a reliable tool for generating authentic Korean fonts across different styles.
- Abstract(参考訳): 自動フォント生成(AFG)は、スタイルイメージのごく一部の例を使用して新しいフォントを作成するプロセスである。
韓国語や中国語などの複雑な言語、特に手書きのスタイルでフォントを生成することは、大きな課題を呈している。
GAN(Generative Adversarial Network)やVAE(VAE)のような従来のAFGは、トレーニング中に不安定であり、しばしばモード崩壊問題に直面している。
また、フォント画像の細部を捉えるのにも苦労している。
これらの問題に対処するために,手書きや印刷スタイルに焦点をあてた単一の参照画像のみを用いて,高品質で多様な韓国フォント画像を生成する拡散型AFG手法を提案する。
我々のアプローチはノイズの多い画像を徐々に洗練し、安定したトレーニングと視覚的にアピールする結果を確実にする。
重要なイノベーションはテキストエンコーダで、音声表現を処理して、未知の文字であっても、正確で文脈的に正しい文字を生成する。
我々は、DG FONTの事前学習型エンコーダを用いて、そのスタイル画像を効果的かつ正確にエンコードした。
生成品質をさらに高めるために、我々はモデルが生成した画像のグローバルなスタイルに焦点を合わせるよう誘導する知覚的損失を用いた。
2000以上の韓国文字に対する実験結果から,我々のモデルは常に正確かつ詳細なフォント画像を生成し,ベンチマーク手法より優れており,異なるスタイルの韓国文字を生成できる信頼性の高いツールであることが示された。
関連論文リスト
- Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models [76.68654868991517]
スライドや文書の段落などの画像中の長文は、現在の生成モデルにとって大きな課題である。
詳細なシーンテキストの特徴をキャプチャするために最適化された新しいテキスト中心のバイナリトークンーを導入します。
モデルNameは,高画質の長文画像を前例のない忠実度で生成するマルチモーダル自己回帰モデルである。
論文 参考訳(メタデータ) (2025-03-26T03:44:25Z) - Zero-Shot Styled Text Image Generation, but Make It Autoregressive [34.09957000751439]
スタイル付き手書きテキスト生成(HTG)は近年,コンピュータビジョンや文書分析コミュニティから注目を集めている。
Emuruと呼ばれるテキスト画像生成のための新しいフレームワークを提案する。
提案手法は,自動回帰変換器と組み合わせた強力なテキスト画像表現モデル(変分オートエンコーダ)を利用する。
論文 参考訳(メタデータ) (2025-03-21T11:56:20Z) - Skeleton and Font Generation Network for Zero-shot Chinese Character Generation [53.08596064763731]
そこで我々は,より堅牢な漢字フォント生成を実現するために,新しいSkeleton and Font Generation Network (SFGN)を提案する。
ミススペル文字について実験を行い、その大部分は共通文字とわずかに異なる。
提案手法は、生成した画像の有効性を視覚的に実証し、現在最先端のフォント生成方法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-14T12:15:49Z) - JoyType: A Robust Design for Multilingual Visual Text Creation [14.441897362967344]
複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T04:23:17Z) - DiffCJK: Conditional Diffusion Model for High-Quality and Wide-coverage CJK Character Generation [1.0044057719679087]
本稿では,単一の条件付き標準グリフ形式から,対象とするスタイルでグリフを生成する新しい拡散法を提案する。
提案手法は,CJK以外の中国語にヒントを得たスクリプトに対して,目覚ましいゼロショットの一般化機能を示す。
要約して,提案手法は,CJK文字に対する高品質な生成モデル支援フォント作成への扉を開く。
論文 参考訳(メタデータ) (2024-04-08T05:58:07Z) - FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning [45.696909070215476]
FontDiffuserは拡散に基づく画像から画像へのワンショットフォント生成手法である。
従来の方法と比較して、複雑な文字と大きなスタイルの変更を一貫して排他的に引き継いでいる。
論文 参考訳(メタデータ) (2023-12-19T13:23:20Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - DG-Font: Deformable Generative Networks for Unsupervised Font Generation [14.178381391124036]
非監視フォント生成(DGFont)のための新しい変形可能な生成ネットワークを提案する。
本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。
実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。
論文 参考訳(メタデータ) (2021-04-07T11:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。