論文の概要: VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.01738v3
- Date: Tue, 22 Jul 2025 13:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:09.954434
- Title: VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models
- Title(参考訳): VitaGlyph:フレキシブルデュアルブランチ拡散モデルを用いたアーティストタイポグラフィー
- Authors: Kailai Feng, Yabo Zhang, Haodong Yu, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Wangmeng Zuo,
- Abstract要約: アーティスティック・タイポグラフィー(Arttic typography)は、入力文字の意味を想像可能で読みやすい方法で視覚化する技法である。
そこで我々は,VitaGlyphと呼ばれる2枝のトレーニング不要な手法を導入し,幾何学的変化を制御可能な,柔軟な芸術的タイポグラフィーを実現する。
- 参考スコア(独自算出の注目度): 53.59400446543756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic typography is a technique to visualize the meaning of input character in an imaginable and readable manner. With powerful text-to-image diffusion models, existing methods directly design the overall geometry and texture of input character, making it challenging to ensure both creativity and legibility. In this paper, we introduce a dual-branch, training-free method called VitaGlyph, enabling flexible artistic typography with controllable geometry changes while maintaining the readability. The key insight of VitaGlyph is to treat input character as a scene composed of a Subject and its Surrounding, which are rendered with varying degrees of geometric transformation. To enhance the visual appeal and creativity of the generated artistic typography, the subject flexibly expresses the essential concept of the input character, while the surrounding enriches relevant background without altering the shape, thus maintaining overall readability. Specifically, we implement VitaGlyph through a three-phase framework: (i) Knowledge Acquisition leverages large language models to design text descriptions for the subject and surrounding. (ii) Regional Interpretation detects the part that most closely matches the subject description and refines the structure via Semantic Typography. (iii) Attentional Compositional Generation separately renders the textures of the Subject and Surrounding regions and blends them in an attention-based manner. Experimental results demonstrate that VitaGlyph not only achieves better artistry and readability but also manages to depict multiple customized concepts, facilitating more creative and pleasing artistic typography generation. Our code will be made publicly available.
- Abstract(参考訳): アーティスティック・タイポグラフィー(Arttic typography)は、入力文字の意味を想像可能で読みやすい方法で視覚化する技法である。
強力なテキスト・画像拡散モデルにより、既存の手法は入力キャラクタの全体形状とテクスチャを直接設計し、創造性と妥当性の両立を困難にしている。
本稿では、可読性を維持しつつ、幾何学的変化を制御可能な柔軟な芸術的タイポグラフィーを可能にする、VitaGlyphと呼ばれるデュアルブランチ・トレーニングフリーな手法を提案する。
VitaGlyphの重要な洞察は、入力文字を主題とその周囲からなるシーンとして扱うことである。
生成した芸術タイポグラフィーの視覚的魅力と創造性を高めるため、被験者は入力キャラクタの本質的概念を柔軟に表現し、周囲の背景は形を変えずに豊かになり、全体的な可読性を維持する。
具体的には、VitaGlyphを3段階のフレームワークで実装する。
一 知識獲得は、大きな言語モデルを利用して、主題及び周辺のテキスト記述を設計する。
(II)地域解釈は,主題記述に最も近い部分を検出し,セマンティック・タイポグラフィーを用いて構造を洗練させる。
3 主観的構成生成は、対象領域及び周辺領域のテクスチャを別々に描画し、注意に基づく方法でブレンドする。
実験結果から、VitaGlyphは芸術性の向上と可読性の向上だけでなく、複数のカスタマイズされたコンセプトを表現し、より創造的で喜ばしい芸術タイポグラフィ生成を促進することが示されている。
私たちのコードは公開されます。
関連論文リスト
- WordCraft: Interactive Artistic Typography with Attention Awareness and Noise Blending [12.655120187133779]
アートタイポグラフィーは、創造的かつ妥当な視覚効果を持つ入力文字をスタイリングすることを目的としている。
従来のアプローチは手動設計に大きく依存するが、最近の生成モデル、特に拡散型手法は自動文字スタイリングを可能にしている。
我々はこれらの制限に対処するために拡散モデルを統合するインタラクティブなアートタイポグラフィーシステムであるWordCraftを紹介する。
論文 参考訳(メタデータ) (2025-07-13T10:49:09Z) - Calligrapher: Freestyle Text Image Customization [72.71919410487881]
Calligrapherは、高度なテキストのカスタマイズと芸術的なタイポグラフィを統合する、新しい拡散ベースのフレームワークである。
高品質で視覚的に一貫したタイポグラフィーを自動化することで、Calligrapherは従来のモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-30T17:59:06Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Intelligent Artistic Typography: A Comprehensive Review of Artistic Text Design and Generation [15.367944842667146]
アーティスティックテキスト生成は、可読性を維持しながら、テキストの美的品質を増幅することを目的としている。
芸術的なテキストスタイリングは、影、輪郭、色、光、テクスチャなど、テキスト上のテキスト効果に重点を置いている。
Stylistizationは文字の変形に焦点を当て、テキスト内の意味的理解を模倣することで視覚的表現を強化する。
論文 参考訳(メタデータ) (2024-07-20T06:45:09Z) - FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation [38.730628018627975]
本研究の目的は,多言語フォントにおけるテキストエフェクトの生成である。
与えられた形状を解釈できる新しい形状適応拡散モデルを提案する。
また、生成した参照文字から他へテクスチャを転送するための学習不要な形状適応型エフェクト転送手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T16:43:47Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。