論文の概要: Calligrapher: Freestyle Text Image Customization
- arxiv url: http://arxiv.org/abs/2506.24123v1
- Date: Mon, 30 Jun 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.192648
- Title: Calligrapher: Freestyle Text Image Customization
- Title(参考訳): Calligrapher: フリースタイルのテキストイメージのカスタマイズ
- Authors: Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen,
- Abstract要約: Calligrapherは、高度なテキストのカスタマイズと芸術的なタイポグラフィを統合する、新しい拡散ベースのフレームワークである。
高品質で視覚的に一貫したタイポグラフィーを自動化することで、Calligrapherは従来のモデルを上回っている。
- 参考スコア(独自算出の注目度): 72.71919410487881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Calligrapher, a novel diffusion-based framework that innovatively integrates advanced text customization with artistic typography for digital calligraphy and design applications. Addressing the challenges of precise style control and data dependency in typographic customization, our framework incorporates three key technical contributions. First, we develop a self-distillation mechanism that leverages the pre-trained text-to-image generative model itself alongside the large language model to automatically construct a style-centric typography benchmark. Second, we introduce a localized style injection framework via a trainable style encoder, which comprises both Qformer and linear layers, to extract robust style features from reference images. An in-context generation mechanism is also employed to directly embed reference images into the denoising process, further enhancing the refined alignment of target styles. Extensive quantitative and qualitative evaluations across diverse fonts and design contexts confirm Calligrapher's accurate reproduction of intricate stylistic details and precise glyph positioning. By automating high-quality, visually consistent typography, Calligrapher surpasses traditional models, empowering creative practitioners in digital art, branding, and contextual typographic design.
- Abstract(参考訳): 本稿では,デジタル書道とデザインのための芸術的タイポグラフィーと高度なテキストのカスタマイズを革新的に統合する,新しい拡散ベースのフレームワークであるCalligrapherを紹介する。
タイポグラフィーのカスタマイズにおける正確なスタイル制御とデータ依存の課題に対処するため,本フレームワークには3つの重要な技術貢献が含まれている。
まず,事前学習したテキスト・画像生成モデル自体を大規模言語モデルと併用して,スタイル中心のタイポグラフィーベンチマークを自動構築する自己蒸留機構を開発する。
第2に、トレーニング可能なスタイルエンコーダを用いて、Qformer層と線形層の両方からなる局所化スタイルインジェクションフレームワークを導入し、参照画像からロバストなスタイル特徴を抽出する。
また、インコンテキスト生成機構を用いて、参照画像をデノナイズプロセスに直接埋め込み、ターゲットスタイルの洗練されたアライメントをさらに強化する。
多様なフォントやデザインコンテキストにまたがる広範囲な量的・質的な評価は、カリグラフの複雑なスタイリスティックな細部と正確なグリフの位置の正確な再現を確認している。
高品質で視覚的に整合性のあるタイポグラフィーを自動化することで、Calligrapherは従来のモデルを超え、デジタルアート、ブランディング、コンテキストタイポグラフィーデザインにおけるクリエイティブな実践者を強化する。
関連論文リスト
- VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models [53.59400446543756]
柔軟な芸術的タイポグラフィーを実現するために,二枝・無訓練の手法であるVitaGlyphを導入する。
VitaGlyphは入力文字を被写体と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングする。
実験結果から、VitaGlyphは芸術性や可読性の向上だけでなく、複数のカスタマイズ概念を表現できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:48:47Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Few-shot Calligraphy Style Learning [0.0]
プレシディフスション(Presidifussion)は、周大統領の独自の書風を習得し、複製する新しいアプローチである。
フォント画像条件付けとストローク情報条件付けの革新的手法を導入し,漢字の複雑な構造要素を抽出する。
本研究は,書道芸術のデジタル保存におけるブレークスルーを示すだけでなく,文化遺産デジタル化分野におけるデータ効率生成モデリングの新たな標準となる。
論文 参考訳(メタデータ) (2024-04-26T07:17:09Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Towards Diverse and Consistent Typography Generation [15.300255326619203]
複数のテキスト要素に対する微粒な属性生成としてタイポグラフィ生成を定式化する。
入力設計コンテキストにマッチする多様なタイポグラフィを生成するために,自動回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-09-05T10:08:11Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z) - SE-GAN: Skeleton Enhanced GAN-based Model for Brush Handwriting Font
Generation [17.06759966521758]
筆書きフォント生成には 全体構造の変化と 複雑なストロークの転送が含まれる
骨格情報を統合した新しいGAN画像翻訳モデルを提案する。
また、6つのスタイルと15,000の高解像度画像を持つ大規模な筆書きフォント画像データセットをコントリビュートする。
論文 参考訳(メタデータ) (2022-04-22T03:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。