論文の概要: Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation
- arxiv url: http://arxiv.org/abs/2602.18874v1
- Date: Sat, 21 Feb 2026 15:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.371153
- Title: Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation
- Title(参考訳): 弱ショット中国フォント生成のための構造レベル遠絡拡散
- Authors: Jie Li, Suorong Yang, Jian Zhao, Furao Shen,
- Abstract要約: 中国のフォント生成は、少数の参照画像のみを使用して、ターゲットスタイルで新しい文字を合成することを目的としている。
既存のアプローチは機能レベルのアンタングルのみを達成するため、ジェネレータはこれらの機能を再アンタングルすることができる。
本研究では,2つのチャンネルからコンテンツとスタイル情報を受信する構造レベル分散拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 18.601789249339014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Few-shot Chinese font generation aims to synthesize new characters in a target style using only a handful of reference images. Achieving accurate content rendering and faithful style transfer requires effective disentanglement between content and style. However, existing approaches achieve only feature-level disentanglement, allowing the generator to re-entangle these features, leading to content distortion and degraded style fidelity. We propose the Structure-Level Disentangled Diffusion Model (SLD-Font), which receives content and style information from two separate channels. SimSun-style images are used as content templates and concatenated with noisy latent features as the input. Style features extracted by a CLIP model from target-style images are integrated via cross-attention. Additionally, we train a Background Noise Removal module in the pixel space to remove background noise in complex stroke regions. Based on theoretical validation of disentanglement effectiveness, we introduce a parameter-efficient fine-tuning strategy that updates only the style-related modules. This allows the model to better adapt to new styles while avoiding overfitting to the reference images' content. We further introduce the Grey and OCR metrics to evaluate the content quality of generated characters. Experimental results show that SLD-Font achieves significantly higher style fidelity while maintaining comparable content accuracy to existing state-of-the-art methods.
- Abstract(参考訳): 中国のフォント生成は、少数の参照画像のみを使用して、ターゲットスタイルで新しい文字を合成することを目的としている。
正確なコンテンツレンダリングと忠実なスタイル転送を実現するには、コンテンツとスタイルを効果的に切り離す必要がある。
しかし、既存のアプローチは機能レベルの不整合しか達成せず、ジェネレータはこれらの特徴を再絡み合わせることができ、コンテンツ歪みと劣化したスタイルの忠実さをもたらす。
本研究では,2つのチャンネルからコンテンツとスタイル情報を受信する構造レベル分散拡散モデルを提案する。
SimSunスタイルのイメージはコンテンツテンプレートとして使用され、ノイズの多い遅延特徴を入力として結合する。
ターゲットスタイルの画像からCLIPモデルによって抽出されたスタイル特徴は、クロスアテンションを介して統合される。
さらに、複雑なストローク領域の背景ノイズを取り除くために、画素空間にバックグラウンドノイズ除去モジュールを訓練する。
解離の有効性の理論的検証に基づいて,スタイル関連モジュールのみを更新するパラメータ効率の高い微調整戦略を導入する。
これにより、参照イメージのコンテンツへの過度な適合を回避しながら、新しいスタイルへの適応性が向上する。
また、生成した文字のコンテンツ品質を評価するため、GreyおよびOCRメトリクスについても紹介する。
実験結果から,SLD-Fontは既存の最先端手法に匹敵するコンテント精度を維持しつつ,スタイルの忠実度を著しく向上することが示された。
関連論文リスト
- Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文 参考訳(メタデータ) (2026-01-10T16:01:14Z) - Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。
既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。
提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-28T15:56:17Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning [45.696909070215476]
FontDiffuserは拡散に基づく画像から画像へのワンショットフォント生成手法である。
従来の方法と比較して、複雑な文字と大きなスタイルの変更を一貫して排他的に引き継いでいる。
論文 参考訳(メタデータ) (2023-12-19T13:23:20Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。