論文の概要: UTDesign: A Unified Framework for Stylized Text Editing and Generation in Graphic Design Images
- arxiv url: http://arxiv.org/abs/2512.20479v1
- Date: Tue, 23 Dec 2025 16:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.931871
- Title: UTDesign: A Unified Framework for Stylized Text Editing and Generation in Graphic Design Images
- Title(参考訳): UTDesign:グラフィックデザイン画像のスティル化テキスト編集と生成のための統一フレームワーク
- Authors: Yiming Zhao, Yuanpeng Gao, Yuxuan Luo, Jiwei Duan, Shisong Lin, Longfei Xiong, Zhouhui Lian,
- Abstract要約: UTDesignは、デザイン画像の高精度なスタイリングテキスト編集と条件付きテキスト生成のための統一されたフレームワークである。
私たちのフレームワークは英語と中国語の両方をサポートしています。
スタイル整合性やテキストの正確性の観点から,オープンソース手法の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 25.895852456869463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-assisted graphic design has emerged as a powerful tool for automating the creation and editing of design elements such as posters, banners, and advertisements. While diffusion-based text-to-image models have demonstrated strong capabilities in visual content generation, their text rendering performance, particularly for small-scale typography and non-Latin scripts, remains limited. In this paper, we propose UTDesign, a unified framework for high-precision stylized text editing and conditional text generation in design images, supporting both English and Chinese scripts. Our framework introduces a novel DiT-based text style transfer model trained from scratch on a synthetic dataset, capable of generating transparent RGBA text foregrounds that preserve the style of reference glyphs. We further extend this model into a conditional text generation framework by training a multi-modal condition encoder on a curated dataset with detailed text annotations, enabling accurate, style-consistent text synthesis conditioned on background images, prompts, and layout specifications. Finally, we integrate our approach into a fully automated text-to-design (T2D) pipeline by incorporating pre-trained text-to-image (T2I) models and an MLLM-based layout planner. Extensive experiments demonstrate that UTDesign achieves state-of-the-art performance among open-source methods in terms of stylistic consistency and text accuracy, and also exhibits unique advantages compared to proprietary commercial approaches. Code and data for this paper are available at https://github.com/ZYM-PKU/UTDesign.
- Abstract(参考訳): AI支援グラフィックデザインは、ポスター、バナー、広告といったデザイン要素の作成と編集を自動化する強力なツールとして登場した。
拡散ベースのテキスト・ツー・イメージモデルは、視覚コンテンツ生成において強力な能力を示しているが、特に小型のタイポグラフィーや非ラテン文字のテキストレンダリング性能は依然として限られている。
本稿では,デザイン画像における高精度スタイリングテキスト編集と条件付きテキスト生成のための統合フレームワークUTDesignを提案する。
本フレームワークでは,合成データセットをスクラッチから学習し,参照グリフのスタイルを保存した透明なRGBAテキストフォアグラウンドを生成可能な,新しいDiTベースのテキストスタイル転送モデルを提案する。
我々はさらに、このモデルを、詳細なテキストアノテーションでキュレートされたデータセット上のマルチモーダル条件エンコーダを訓練し、背景画像、プロンプト、レイアウト仕様に基づいて、正確なスタイル一貫性のあるテキスト合成を可能にする条件付きテキスト生成フレームワークに拡張する。
最後に、トレーニング済みのテキスト・ツー・イメージ(T2I)モデルとMLLMベースのレイアウトプランナを組み込んで、完全に自動化されたテキスト・ツー・デザイン(T2D)パイプラインにアプローチを統合する。
UTDesignはスタイリスティックな一貫性とテキストの正確性の観点から,オープンソース手法の最先端性能を実現し,プロプライエタリな商用手法と比較して,独特な優位性を示している。
この論文のコードとデータはhttps://github.com/ZYM-PKU/UTDesign.comで公開されている。
関連論文リスト
- DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。
提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。
視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文 参考訳(メタデータ) (2025-03-03T15:22:57Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。