論文の概要: VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.01738v2
- Date: Mon, 25 Nov 2024 09:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:29.763822
- Title: VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models
- Title(参考訳): VitaGlyph:フレキシブルデュアルブランチ拡散モデルを用いたアーティストタイポグラフィー
- Authors: Kailai Feng, Yabo Zhang, Haodong Yu, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Wangmeng Zuo,
- Abstract要約: 柔軟な芸術的タイポグラフィーを実現するために,二枝・無訓練の手法であるVitaGlyphを導入する。
VitaGlyphは入力文字を被写体と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングする。
実験結果から、VitaGlyphは芸術性や可読性の向上だけでなく、複数のカスタマイズ概念を表現できることがわかった。
- 参考スコア(独自算出の注目度): 53.59400446543756
- License:
- Abstract: Artistic typography is a technique to visualize the meaning of input character in an imaginable and readable manner. With powerful text-to-image diffusion models, existing methods directly design the overall geometry and texture of input character, making it challenging to ensure both creativity and legibility. In this paper, we introduce a dual-branch and training-free method, namely VitaGlyph, enabling flexible artistic typography along with controllable geometry change to maintain the readability. The key insight of VitaGlyph is to treat input character as a scene composed of Subject and Surrounding, followed by rendering them under varying degrees of geometry transformation. The subject flexibly expresses the essential concept of input character, while the surrounding enriches relevant background without altering the shape. Specifically, we implement VitaGlyph through a three-phase framework: (i) Knowledge Acquisition leverages large language models to design text descriptions of subject and surrounding. (ii) Regional decomposition detects the part that most matches the subject description and divides input glyph image into subject and surrounding regions. (iii) Typography Stylization firstly refines the structure of subject region via Semantic Typography, and then separately renders the textures of Subject and Surrounding regions through Controllable Compositional Generation. Experimental results demonstrate that VitaGlyph not only achieves better artistry and readability, but also manages to depict multiple customize concepts, facilitating more creative and pleasing artistic typography generation. Our code will be made publicly at https://github.com/Carlofkl/VitaGlyph.
- Abstract(参考訳): アーティスティック・タイポグラフィー(Arttic typography)は、入力文字の意味を想像可能で読みやすい方法で視覚化する技法である。
強力なテキスト・画像拡散モデルにより、既存の手法は入力キャラクタの全体形状とテクスチャを直接設計し、創造性と妥当性の両立を困難にしている。
本稿では,VitaGlyphという二分岐・学習不要の手法を導入し,可読性を維持するために,柔軟で芸術的なタイポグラフィーと幾何学的変化を両立させる手法を提案する。
VitaGlyphの重要な洞察は、入力文字を主題と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングすることである。
被験者は、入力キャラクタの本質的概念を柔軟に表現し、周囲は、形状を変えることなく、関連する背景を豊かにする。
具体的には、VitaGlyphを3段階のフレームワークで実装する。
一 知識獲得は、大きな言語モデルを利用して、主題及び周囲のテキスト記述を設計する。
二 地域分解は、被写体記述に最もよく一致する部分を検出し、入力したグリフ画像を被写体及び周辺領域に分割する。
3) タイポグラフィー・スティライゼーションは,まずセマンティック・タイポグラフィーを用いて対象領域の構造を洗練し,次いで制御可能な構成生成により対象領域と周辺領域のテクスチャを別々に描画する。
実験の結果、VitaGlyphは芸術性や可読性を向上するだけでなく、複数のカスタマイズされたコンセプトを表現し、より創造的で喜ばしい芸術的タイポグラフィー生成を促進することが示されている。
私たちのコードはhttps://github.com/Carlofkl/VitaGlyph.comで公開されます。
関連論文リスト
- FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation [38.730628018627975]
本研究の目的は,多言語フォントにおけるテキストエフェクトの生成である。
与えられた形状を解釈できる新しい形状適応拡散モデルを提案する。
また、生成した参照文字から他へテクスチャを転送するための学習不要な形状適応型エフェクト転送手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T16:43:47Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。