論文の概要: FontFusion: Enhancing Generative Text in Diffusion Models with Typographic Conditioning
- arxiv url: http://arxiv.org/abs/2606.06066v1
- Date: Thu, 04 Jun 2026 12:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.663648
- Title: FontFusion: Enhancing Generative Text in Diffusion Models with Typographic Conditioning
- Title(参考訳): FontFusion: タイポグラフィ条件付き拡散モデルにおける生成テキストの強化
- Authors: Marian Lupascu, Nipun Jindal, Ionut Mironica, Zhaowen Wang,
- Abstract要約: FontFusion は Diffusion Transformer (DiT) アーキテクチャ用のプラグアンドプレイ・コンディショニングフレームワークである。
フォント埋め込み空間の系統的評価により,DeepFontとDINOv2を組み合わせたデュアルエンコーダは,タイポグラフィータスクの単一エンコーダよりも優れていた。
- 参考スコア(独自算出の注目度): 6.91163293856906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typography generation in diffusion models faces a persistent trade-off: enabling precise font control typically degrades text legibility, while maintaining readability often sacrifices typographic fidelity. We present FontFusion, a plug-and-play conditioning framework for Diffusion Transformer (DiT) architectures that resolves this dilemma through three core innovations: (1) a hierarchical token representation establishing explicit text-font relationships at multiple granularities, (2) position-aware embeddings creating spatial bindings between typography and image content, and (3) a multi-level token dropping strategy improving both computational efficiency and generalization to unseen fonts. Our systematic evaluation of font embedding spaces reveals that a dual encoder combining DeepFont and DINOv2 outperforms any single encoder for typography tasks. FontFusion demonstrates 76% relative improvement on challenging decorative fonts over single-encoder baselines and font consistency gains exceeding approximately 68-76% over unconditioned models, while integrating into existing DiT architectures without retraining.
- Abstract(参考訳): 正確なフォント制御を可能にすることは、テキストの可読性を低下させ、可読性を維持することは、しばしばタイポグラフィーの忠実性を犠牲にする。
本稿では,Diffusion Transformer (DiT) アーキテクチャ用のプラグ・アンド・プレイ・コンディショニング・フレームワークであるFontFusionについて,(1)複数の粒度で明示的なテキスト・フォント関係を確立する階層的トークン表現,(2)タイポグラフィと画像コンテンツ間の空間的結合を生成する位置認識埋め込み,(3) 計算効率と一般化を両立させるマルチレベルトークン・ドロップ・ストラテジーを提案する。
フォント埋め込み空間の系統的評価により,DeepFontとDINOv2を組み合わせたデュアルエンコーダは,タイポグラフィータスクの単一エンコーダよりも優れていた。
FontFusionは、シングルエンコーダベースラインよりも難しい装飾フォントが76%向上し、フォントの一貫性が約68-76%向上したことを実証している。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - DA-Font: Few-Shot Font Generation via Dual-Attention Hybrid Integration [12.71388563750518]
DA-FontはDual-Attention Hybrid Moduleを統合する新しいフレームワークである。
DA-Fontは様々なフォントスタイルや文字で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-20T11:12:15Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation [13.569449355929574]
本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
論文 参考訳(メタデータ) (2022-04-11T13:34:40Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。