論文の概要: FontAdapter: Instant Font Adaptation in Visual Text Generation
- arxiv url: http://arxiv.org/abs/2506.05843v1
- Date: Fri, 06 Jun 2025 08:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.37067
- Title: FontAdapter: Instant Font Adaptation in Visual Text Generation
- Title(参考訳): FontAdapter:ビジュアルテキスト生成におけるインスタントフォント適応
- Authors: Myungkyu Koo, Subin Kim, Sangkyung Kwak, Jaehyun Nam, Seojin Kim, Jinwoo Shin,
- Abstract要約: 本稿では,参照グリフ画像に条件付きで,未知のフォントで数秒以内に視覚テキストを生成するフレームワークFontAdapterを提案する。
実験によると、FontAdapterは推論中に微調整を加えることなく、見えないフォント間で高品質で堅牢なフォントカスタマイズを可能にする。
- 参考スコア(独自算出の注目度): 45.00544198317519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have significantly improved the seamless integration of visual text into diverse image contexts. Recent approaches further improve control over font styles through fine-tuning with predefined font dictionaries. However, adapting unseen fonts outside the preset is computationally expensive, often requiring tens of minutes, making real-time customization impractical. In this paper, we present FontAdapter, a framework that enables visual text generation in unseen fonts within seconds, conditioned on a reference glyph image. To this end, we find that direct training on font datasets fails to capture nuanced font attributes, limiting generalization to new glyphs. To overcome this, we propose a two-stage curriculum learning approach: FontAdapter first learns to extract font attributes from isolated glyphs and then integrates these styles into diverse natural backgrounds. To support this two-stage training scheme, we construct synthetic datasets tailored to each stage, leveraging large-scale online fonts effectively. Experiments demonstrate that FontAdapter enables high-quality, robust font customization across unseen fonts without additional fine-tuning during inference. Furthermore, it supports visual text editing, font style blending, and cross-lingual font transfer, positioning FontAdapter as a versatile framework for font customization tasks.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、視覚テキストの多様な画像コンテキストへのシームレスな統合を大幅に改善した。
最近のアプローチでは、事前に定義されたフォント辞書で微調整することでフォントスタイルの制御をさらに改善している。
しかし、未確認フォントをプリセットの外に適応させるのは非常に高価であり、しばしば数分間かかるため、リアルタイムのカスタマイズは不可能である。
本稿では,FontAdapterについて述べる。FontAdapterは,参照グリフ画像に基づいて,未知のフォントを数秒以内で視覚的テキスト生成を可能にするフレームワークである。
この目的のために、フォントデータセットの直接トレーニングは、ニュアンス付きフォント属性のキャプチャに失敗し、一般化を新しいグリフに制限する。
FontAdapterはまず、独立したグリフからフォント属性を抽出し、これらのスタイルを様々な自然背景に統合する。
この2段階の学習手法をサポートするために,大規模オンラインフォントを効果的に活用し,各ステージに合わせた合成データセットを構築する。
実験によると、FontAdapterは推論中に微調整を加えることなく、見えないフォント間で高品質で堅牢なフォントカスタマイズを可能にする。
さらに、ビジュアルテキスト編集、フォントスタイルのブレンディング、言語間フォント転送をサポートし、フォントカスタマイズタスクの汎用フレームワークとしてFontAdapterを配置する。
関連論文リスト
- ControlText: Unlocking Controllable Fonts in Multilingual Text Rendering without Font Annotations [8.588945675550592]
本研究は,フォントラベルアノテーションを使わずに,原画像のみを用いてフォント制御可能な多言語テキストレンダリングを実現することができることを示す。
この実験は、ゼロショットテキストにおける我々のアルゴリズムの概念の証明と、多様なフォントや言語にわたるフォント編集を提供する。
論文 参考訳(メタデータ) (2025-02-16T05:30:18Z) - JoyType: A Robust Design for Multilingual Visual Text Creation [14.441897362967344]
複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T04:23:17Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Font Representation Learning via Paired-glyph Matching [15.358456947574913]
本稿では,フォントスタイルを潜在空間に埋め込む新しいフォント表現学習手法を提案する。
フォントを他者から識別的に表現するために,マッチングに基づくフォント表現学習モデルを提案する。
フォント表現学習方式は,既存のフォント表現学習手法よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-20T12:27:27Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Few-shot Compositional Font Generation with Dual Memory [16.967987801167514]
我々は、新しいフォント生成フレームワークDual Memory-augmented Font Generation Network (DM-Font)を提案する。
我々は、構成性を活用するために、メモリコンポーネントとグローバルコンテキスト認識をジェネレータに採用する。
韓国手書きフォントとタイ手書きフォントの実験では,本手法が忠実なスタイリングによるサンプルの品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-05-21T08:13:40Z) - Attribute2Font: Creating Fonts You Want From Attributes [32.82714291856353]
Attribute2Fontは、属性値に基づいて条件付けられた任意の2つのフォント間でフォントスタイルの転送を実行するように訓練されている。
Attribute Attention Moduleと呼ばれる新しいユニットは、生成されたグリフ画像が顕著なフォント属性をより具体化するように設計されている。
論文 参考訳(メタデータ) (2020-05-16T04:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。