論文の概要: CPT: Controllable and Editable Design Variations with Language Models
- arxiv url: http://arxiv.org/abs/2604.04380v1
- Date: Mon, 06 Apr 2026 03:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.07409
- Title: CPT: Controllable and Editable Design Variations with Language Models
- Title(参考訳): CPT:言語モデルによる制御可能かつ編集可能な設計変化
- Authors: Karthik Suresh, Amine Ben Khalifa, Li Zhang, Wei-ting Hsu, Fangzheng Wu, Vinay More, Asim Kadav,
- Abstract要約: 本稿では,デコーダのみの言語モデルであるCreative Pre-trained Transformer (CPT)を用いて,編集可能な設計変種を生成するシステムを提案する。
CPTは、デザインテンプレートの視覚スタイル属性を予測するために訓練されている。
実験では,既存のテンプレートに対してコンテキストカラーとフォントのバリエーションを生成し,設計原則を維持しつつレイアウトを調整することを約束する。
- 参考スコア(独自算出の注目度): 4.267349946267472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designing visually diverse and high-quality designs remains a manual, time-consuming process, limiting scalability and personalization in creative workflows. We present a system for generating editable design variations using a decoder-only language model, the Creative Pre-trained Transformer (CPT), trained to predict visual style attributes in design templates. At the core of our approach is a new representation called Creative Markup Language (CML), a compact, machine-learning-friendly format that captures canvas-level structure, page layout, and element-level details (text, images, and vector graphics), including both content and style. We fine-tune CPT on a large corpus of design templates authored by professional designers, enabling it to learn meaningful, context-aware predictions for attributes such as color schemes and font choices. The model produces semantically structured and stylistically coherent outputs, preserving internal consistency across elements. Unlike generative image models, our system yields fully editable design documents rather than pixel-only images, allowing users to iterate and personalize within a design editor. In experiments, our approach generates contextual color and font variations for existing templates and shows promise in adjusting layouts while maintaining design principles.
- Abstract(参考訳): 視覚的に多様で高品質なデザインを設計することは、創造的なワークフローにおけるスケーラビリティとパーソナライズを制限する、手作業による、時間を要するプロセスのままです。
本稿では,デコーダのみの言語モデルであるCreative Pre-trained Transformer (CPT) を用いて,デザインテンプレートの視覚的スタイル特性を予測することで,編集可能なデザインバリエーションを生成するシステムを提案する。
このアプローチのコアとなるのは、Creative Markup Language(CML)と呼ばれる新しい表現です。CMLは、キャンバスレベルの構造、ページレイアウト、要素レベルの詳細(テキスト、画像、ベクトルグラフィックス)をキャプチャする、コンパクトで機械学習に優しいフォーマットです。
我々は、プロのデザイナーが作成したデザインテンプレートの大規模なコーパスにCPTを微調整し、カラースキームやフォント選択などの属性に対する意味のあるコンテキスト認識予測を学習できるようにする。
このモデルは意味的に構造化され、スタイリスティックにコヒーレントな出力を生成し、要素間の内部整合性を保つ。
生成画像モデルとは違って,本システムは,ピクセルのみの画像ではなく,完全に編集可能なデザイン文書を出力し,ユーザがデザインエディタ内で反復してパーソナライズすることができる。
実験では,既存のテンプレートに対してコンテキストカラーとフォントのバリエーションを生成し,設計原則を維持しつつレイアウトを調整することを約束する。
関連論文リスト
- PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow [80.29423400249944]
PSDesignerは、人間のデザイナーの創造的なワークフローをエミュレートするグラフィックデザインシステムである。
PSDesignerはユーザ命令に基づいてテーマ関連資産を収集し、設計ファイルを操作するためのツールコールを自律的に推論して実行する。
強力なツール利用能力を持つシステムを実現するため,大量の高品質なPSD設計ファイルを含む設計データセットであるCreativePSDを構築した。
論文 参考訳(メタデータ) (2026-03-26T17:59:51Z) - UTDesign: A Unified Framework for Stylized Text Editing and Generation in Graphic Design Images [25.895852456869463]
UTDesignは、デザイン画像の高精度なスタイリングテキスト編集と条件付きテキスト生成のための統一されたフレームワークである。
私たちのフレームワークは英語と中国語の両方をサポートしています。
スタイル整合性やテキストの正確性の観点から,オープンソース手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-23T16:13:55Z) - Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。
GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。
これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。
本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文 参考訳(メタデータ) (2025-07-08T02:26:08Z) - CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation [13.354283356097563]
CreatiPosterは、任意の自然言語命令やアセットから編集可能な多層合成を生成するフレームワークである。
さらなる研究のために、我々は10万の多層設計の著作権フリーコーパスをリリースする。
論文 参考訳(メタデータ) (2025-06-12T16:54:39Z) - MetaDesigner: Advancing Artistic Typography Through AI-Driven, User-Centric, and Multilingual WordArt Synthesis [65.78359025027457]
MetaDesignerがLarge Language Models(LLM)を利用したアートタイポグラフィーのための変換フレームワークを導入
その基盤は、Pipeline、Glyph、Textureエージェントで構成されるマルチエージェントシステムであり、カスタマイズ可能なWordArtの作成をまとめてオーケストレーションしている。
論文 参考訳(メタデータ) (2024-06-28T11:58:26Z) - PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。
評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。
これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文 参考訳(メタデータ) (2024-04-01T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。