論文の概要: Beyond Patches: Global-aware Autoregressive Model for Multimodal Few-Shot Font Generation
- arxiv url: http://arxiv.org/abs/2601.01593v1
- Date: Sun, 04 Jan 2026 16:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.552411
- Title: Beyond Patches: Global-aware Autoregressive Model for Multimodal Few-Shot Font Generation
- Title(参考訳): Beyond Patches: マルチモーダルFew-Shotフォント生成のためのグローバルな自動回帰モデル
- Authors: Haonan Cai, Yuxuan Luo, Zhouhui Lian,
- Abstract要約: わずかなショットフォント生成(FFG)モデルは、限られた参照から構造的整合性とスタイル的忠実性を維持するのに苦労する。
マルチモーダルな少数ショットフォント生成のための新しいARフレームワークであるGAR-Fontを提案する。
GAR-Fontは既存のFFG手法より優れ、グローバルなスタイルの忠実さを維持し、テキストスタイリスティックなガイダンスで高品質な結果を達成する。
- 参考スコア(独自算出の注目度): 24.354062542951056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual font design is an intricate process that transforms a stylistic visual concept into a coherent glyph set. This challenge persists in automated Few-shot Font Generation (FFG), where models often struggle to preserve both the structural integrity and stylistic fidelity from limited references. While autoregressive (AR) models have demonstrated impressive generative capabilities, their application to FFG is constrained by conventional patch-level tokenization, which neglects global dependencies crucial for coherent font synthesis. Moreover, existing FFG methods remain within the image-to-image paradigm, relying solely on visual references and overlooking the role of language in conveying stylistic intent during font design. To address these limitations, we propose GAR-Font, a novel AR framework for multimodal few-shot font generation. GAR-Font introduces a global-aware tokenizer that effectively captures both local structures and global stylistic patterns, a multimodal style encoder offering flexible style control through a lightweight language-style adapter without requiring intensive multimodal pretraining, and a post-refinement pipeline that further enhances structural fidelity and style coherence. Extensive experiments show that GAR-Font outperforms existing FFG methods, excelling in maintaining global style faithfulness and achieving higher-quality results with textual stylistic guidance.
- Abstract(参考訳): 手動フォントデザインは、スタイリスティックな視覚概念をコヒーレントなグリフセットに変換する複雑なプロセスである。
この課題はFew-shot Font Generation (FFG) において継続され、モデルはしばしば限られた参照から構造的完全性とスタイル的忠実性の両方を維持するのに苦労する。
自己回帰(AR)モデルは印象的な生成能力を示しているが、FFGへの応用は、コヒーレントフォント合成に不可欠なグローバル依存関係を無視した従来のパッチレベルのトークン化に制約されている。
さらに、既存のFFGメソッドはイメージ・ツー・イメージのパラダイムに留まっており、視覚参照のみに依存し、フォント設計中にスタイリスティックな意図を伝える上での言語の役割を見落としている。
これらの制約に対処するため,マルチモーダルな少数ショットフォント生成のための新しいARフレームワークであるGAR-Fontを提案する。
GAR-Fontは、ローカル構造とグローバルスタイリスティックパターンの両方を効果的にキャプチャするグローバル・アウェア・トークンー、マルチモーダル事前トレーニングを必要とせずに軽量言語スタイルのアダプタを通じて柔軟なスタイル制御を提供するマルチモーダル・スタイル・エンコーダ、構造忠実性とスタイルコヒーレンスをさらに向上するポストリファインメント・パイプラインを導入している。
GAR-Fontは既存のFFG法より優れ、グローバルなスタイルの忠実さを維持し、テキストスタイリスティックなガイダンスで高品質な結果が得られる。
関連論文リスト
- ScriptViT: Vision Transformer-Based Personalized Handwriting Generation [0.0]
スタイル付き手書き文字生成は、写実的で、特定のライターのスタイルと整合した手書きテキストを合成することを目的としている。
複数の参照画像からグローバルなスタイルパターンを学習するビジョントランスフォーマー方式のエンコーダを提案する。
次に、これらのスタイルキューをクロスアテンション機構を用いて対象のテキストと統合し、より忠実に意図したスタイルを反映した手書き画像を生成する。
論文 参考訳(メタデータ) (2025-11-23T06:38:23Z) - Autoregressive Styled Text Image Generation, but Make it Reliable [51.09340470015673]
本研究は,最近提案されたHTGの自己回帰トランスフォーマーパラダイムによって達成された,スタイルの忠実さと一般化の両面で有望な成果を生かし,その特性を再現する戦略開発に焦点をあてる。
本研究では,HTGをマルチモーダルなプロンプト条件付き生成タスクとしてフレーミングすることで自己回帰を再考し,視覚との整合性を高めるために特別な入力トークンを導入することで,コンテンツ制御可能性の問題に対処する。
論文 参考訳(メタデータ) (2025-10-27T11:54:23Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models [0.0]
Local Prompt Adaptation (LPA) は、プロンプトをコンテンツやスタイルトークンに注入する、軽量でトレーニング不要な手法である。
T2Iベンチマークでは、LPAはバニラSDXLのCLIP-promptアライメントを+0.41%、SD1.5の+0.34%改善し、多様性を損なわない。
カスタムの50プロンプトスタイルリッチベンチマークでは、LPAは+0.09%のCLIPプロンプトと+0.08%のCLIPスタイルのゲインを達成した。
論文 参考訳(メタデータ) (2025-07-27T01:32:13Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。