論文の概要: CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design
- arxiv url: http://arxiv.org/abs/2505.19114v2
- Date: Wed, 28 May 2025 03:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.739271
- Title: CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design
- Title(参考訳): CreatiDesign:Creative Graphicデザインのための統合マルチコンディション拡散変換器
- Authors: Hui Zhang, Dexiang Hong, Maoke Yang, Yutao Cheng, Zhao Zhang, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
- 参考スコア(独自算出の注目度): 69.83433430133302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphic design plays a vital role in visual communication across advertising, marketing, and multimedia entertainment. Prior work has explored automated graphic design generation using diffusion models, aiming to streamline creative workflows and democratize design capabilities. However, complex graphic design scenarios require accurately adhering to design intent specified by multiple heterogeneous user-provided elements (\eg images, layouts, and texts), which pose multi-condition control challenges for existing methods. Specifically, previous single-condition control models demonstrate effectiveness only within their specialized domains but fail to generalize to other conditions, while existing multi-condition methods often lack fine-grained control over each sub-condition and compromise overall compositional harmony. To address these limitations, we introduce CreatiDesign, a systematic solution for automated graphic design covering both model architecture and dataset construction. First, we design a unified multi-condition driven architecture that enables flexible and precise integration of heterogeneous design elements with minimal architectural modifications to the base diffusion model. Furthermore, to ensure that each condition precisely controls its designated image region and to avoid interference between conditions, we propose a multimodal attention mask mechanism. Additionally, we develop a fully automated pipeline for constructing graphic design datasets, and introduce a new dataset with 400K samples featuring multi-condition annotations, along with a comprehensive benchmark. Experimental results show that CreatiDesign outperforms existing models by a clear margin in faithfully adhering to user intent.
- Abstract(参考訳): グラフィックデザインは、広告、マーケティング、マルチメディアエンターテイメントにおける視覚コミュニケーションにおいて重要な役割を果たす。
それまでの作業では、創造的なワークフローの合理化とデザイン機能の民主化を目的として、拡散モデルを使用したグラフィックデザインの自動生成について検討してきた。
しかし、複雑なグラフィック設計シナリオは、複数の異種ユーザが提供する要素(画像、レイアウト、テキスト)によって指定された設計意図に正確に固執する必要がある。
具体的には、従来の単一条件制御モデルでは、特定の領域内でのみ有効性を示すが、他の条件への一般化には失敗するが、既存のマルチ条件法では、各サブ条件に対するきめ細かい制御が欠如し、全体の構成調和を損なうことも多い。
このような制限に対処するために、モデルアーキテクチャとデータセット構築の両方をカバーする自動グラフィック設計のための体系的なソリューションであるCreativeDesignを紹介します。
まず,基本拡散モデルに最小限のアーキテクチャ変更を施した異種設計要素の柔軟かつ正確な統合を可能にする,統一型マルチコンディション駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御し,条件間の干渉を回避するために,マルチモーダルアテンションマスク機構を提案する。
さらに、グラフィックデザインデータセットを構築するための完全自動パイプラインを開発し、マルチコンディションアノテーションを備えた400Kサンプルと包括的なベンチマークを備えた新しいデータセットを導入する。
実験の結果,CreativeDesignはユーザ意図に忠実に固執する上で,既存のモデルよりも明確なマージンで優れていることがわかった。
関連論文リスト
- DiffDesign: Controllable Diffusion with Meta Prior for Efficient Interior Design Generation [21.910447939103385]
DiffDesignは、メタプリミティブを持つ制御可能な拡散モデルであり、効率的な内部設計生成を実現する。
具体的には,画像データセット上で事前学習した2次元拡散モデルの生成先行をレンダリングバックボーンとして利用する。
さらに、外観、ポーズ、サイズといったデザイン属性を横断的に制御し、視点整合性を強制する最適な転送ベースのアライメントモジュールを導入することで、デノナイジングプロセスをガイドする。
論文 参考訳(メタデータ) (2024-11-25T11:36:34Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。