論文の概要: CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design
- arxiv url: http://arxiv.org/abs/2505.19114v1
- Date: Sun, 25 May 2025 12:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.915431
- Title: CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design
- Title(参考訳): CreatiDesign:Creative Graphicデザインのための統合マルチコンディション拡散変換器
- Authors: Hui Zhang, Dexiang Hong, Maoke Yang, Yutao Chen, Zhao Zhang, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
- 参考スコア(独自算出の注目度): 72.79720246590522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphic design plays a vital role in visual communication across advertising, marketing, and multimedia entertainment. Prior work has explored automated graphic design generation using diffusion models, aiming to streamline creative workflows and democratize design capabilities. However, complex graphic design scenarios require accurately adhering to design intent specified by multiple heterogeneous user-provided elements (\eg images, layouts, and texts), which pose multi-condition control challenges for existing methods. Specifically, previous single-condition control models demonstrate effectiveness only within their specialized domains but fail to generalize to other conditions, while existing multi-condition methods often lack fine-grained control over each sub-condition and compromise overall compositional harmony. To address these limitations, we introduce CreatiDesign, a systematic solution for automated graphic design covering both model architecture and dataset construction. First, we design a unified multi-condition driven architecture that enables flexible and precise integration of heterogeneous design elements with minimal architectural modifications to the base diffusion model. Furthermore, to ensure that each condition precisely controls its designated image region and to avoid interference between conditions, we propose a multimodal attention mask mechanism. Additionally, we develop a fully automated pipeline for constructing graphic design datasets, and introduce a new dataset with 400K samples featuring multi-condition annotations, along with a comprehensive benchmark. Experimental results show that CreatiDesign outperforms existing models by a clear margin in faithfully adhering to user intent.
- Abstract(参考訳): グラフィックデザインは、広告、マーケティング、マルチメディアエンターテイメントにおける視覚コミュニケーションにおいて重要な役割を果たす。
それまでの作業では、創造的なワークフローの合理化とデザイン機能の民主化を目的として、拡散モデルを使用したグラフィックデザインの自動生成について検討してきた。
しかし、複雑なグラフィック設計シナリオは、複数の異種ユーザが提供する要素(画像、レイアウト、テキスト)によって指定された設計意図に正確に固執する必要がある。
具体的には、従来の単一条件制御モデルでは、特定の領域内でのみ有効性を示すが、他の条件への一般化には失敗するが、既存のマルチ条件法では、各サブ条件に対するきめ細かい制御が欠如し、全体の構成調和を損なうことも多い。
このような制限に対処するために、モデルアーキテクチャとデータセット構築の両方をカバーする自動グラフィック設計のための体系的なソリューションであるCreativeDesignを紹介します。
まず,基本拡散モデルに最小限のアーキテクチャ変更を施した異種設計要素の柔軟かつ正確な統合を可能にする,統一型マルチコンディション駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御し,条件間の干渉を回避するために,マルチモーダルアテンションマスク機構を提案する。
さらに、グラフィックデザインデータセットを構築するための完全自動パイプラインを開発し、マルチコンディションアノテーションを備えた400Kサンプルと包括的なベンチマークを備えた新しいデータセットを導入する。
実験の結果,CreativeDesignはユーザ意図に忠実に固執する上で,既存のモデルよりも明確なマージンで優れていることがわかった。
関連論文リスト
- Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - IGD: Instructional Graphic Design with Multimodal Layer Generation [83.31320209596991]
レイアウト生成に大きく依存する2段階の手法は創造性とインテリジェンスに欠けており、グラフィックデザインは依然として労働集約的である。
自然言語命令のみで編集可能な柔軟性を持つマルチモーダル層を高速に生成するインストラクショナルグラフィックデザイナ(IGD)を提案する。
論文 参考訳(メタデータ) (2025-07-14T04:31:15Z) - Multi-View Depth Consistent Image Generation Using Generative AI Models: Application on Architectural Design of University Buildings [20.569648863933285]
生成AIモデルを用いた新しい3段階一貫した画像生成フレームワークを提案する。
バックボーンとしてControlNetを使用し、アーキテクチャ靴箱モデルのマルチビュー入力に対応するように最適化する。
実験により,提案フレームワークは,一貫したスタイルと構造コヒーレンスを持つマルチビューアーキテクチャ画像を生成することができることを示した。
論文 参考訳(メタデータ) (2025-03-05T00:16:09Z) - DiffDesign: Controllable Diffusion with Meta Prior for Efficient Interior Design Generation [21.910447939103385]
DiffDesignは、メタプリミティブを持つ制御可能な拡散モデルであり、効率的な内部設計生成を実現する。
具体的には,画像データセット上で事前学習した2次元拡散モデルの生成先行をレンダリングバックボーンとして利用する。
さらに、外観、ポーズ、サイズといったデザイン属性を横断的に制御し、視点整合性を強制する最適な転送ベースのアライメントモジュールを導入することで、デノナイジングプロセスをガイドする。
論文 参考訳(メタデータ) (2024-11-25T11:36:34Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design [39.809852329070466]
本稿では,これらの課題に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
論文 参考訳(メタデータ) (2023-11-28T17:22:17Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。