論文の概要: COLE: A Hierarchical Generation Framework for Graphic Design
- arxiv url: http://arxiv.org/abs/2311.16974v1
- Date: Tue, 28 Nov 2023 17:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:27:10.680081
- Title: COLE: A Hierarchical Generation Framework for Graphic Design
- Title(参考訳): cole: グラフィックデザインのための階層的生成フレームワーク
- Authors: Peidong Jia and Chenxuan Li and Zeyu Liu and Yichao Shen and Xingru
Chen and Yuhui Yuan and Yinglin Zheng and Dong Chen and Ji Li and Xiaodong
Xie and Shanghang Zhang and Baining Guo
- Abstract要約: 15世紀から進化してきたグラフィックデザインは、広告において重要な役割を担っている。
本稿では,これらの課題を包括的に解決するために設計された階層型生成フレームワークであるCOLEを紹介する。
COLEは、簡単な意図的なプロンプトを高品質なグラフィックデザインに変換すると同時に、ユーザ入力に基づいた柔軟な編集をサポートする。
- 参考スコア(独自算出の注目度): 40.09673158568953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphic design, which has been evolving since the 15th century, plays a
crucial role in advertising. The creation of high-quality designs demands
creativity, innovation, and lateral thinking. This intricate task involves
understanding the objective, crafting visual elements such as the background,
decoration, font, color, and shape, formulating diverse professional layouts,
and adhering to fundamental visual design principles. In this paper, we
introduce COLE, a hierarchical generation framework designed to comprehensively
address these challenges. This COLE system can transform a straightforward
intention prompt into a high-quality graphic design, while also supporting
flexible editing based on user input. Examples of such input might include
directives like ``design a poster for Hisaishi's concert.'' The key insight is
to dissect the complex task of text-to-design generation into a hierarchy of
simpler sub-tasks, each addressed by specialized models working
collaboratively. The results from these models are then consolidated to produce
a cohesive final output. Our hierarchical task decomposition can streamline the
complex process and significantly enhance generation reliability. Our COLE
system consists of multiple fine-tuned Large Language Models (LLMs), Large
Multimodal Models (LMMs), and Diffusion Models (DMs), each specifically
tailored for a design-aware text or image generation task. Furthermore, we
construct the DESIGNERINTENTION benchmark to highlight the superiority of our
COLE over existing methods in generating high-quality graphic designs from user
intent. We perceive our COLE as an important step towards addressing more
complex visual design generation tasks in the future.
- Abstract(参考訳): 15世紀から進化してきたグラフィックデザインは、広告において重要な役割を担っている。
高品質なデザインの創造は、創造性、革新、横方向の思考を必要とする。
この複雑なタスクは目的を理解し、背景、装飾、フォント、色、形状などの視覚的要素を作成し、様々な専門的なレイアウトを定式化し、基本的なビジュアルデザイン原則に固執する。
本稿では,これらの課題を包括的に解決するための階層型生成フレームワークであるCOLEを紹介する。
このCOLEシステムは、簡単な意図のプロンプトを高品質なグラフィックデザインに変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
このようなインプットの例としては、『久石のコンサートのポスターをデザインする』などの指示がある。
重要な洞察は、テキスト・デザイン生成の複雑なタスクを単純なサブタスクの階層に分解することであり、それぞれが協調して動作する専門モデルによって対処される。
これらのモデルの結果は統合され、結束した最終的な出力を生成する。
我々の階層的なタスク分解は複雑なプロセスを合理化し、生成信頼性を大幅に向上させることができる。
我々のCOLEシステムは、複数の微調整されたLarge Language Model(LLM)、Large Multimodal Model(LMM)、Diffusion Models(DM)で構成されており、それぞれがデザイン対応のテキストや画像生成タスクに特化している。
さらに,ユーザ意図から高品質なグラフィックデザインを生成する既存手法よりもCOLEの方が優れていることを示すために,DESIGNERINTENTIONベンチマークを構築した。
私たちはcoleを、より複雑なビジュアルデザイン生成タスクに取り組むための重要なステップとして捉えています。
関連論文リスト
- iCONTRA: Toward Thematic Collection Design Via Interactive Concept
Transfer [16.35842298296878]
対話型Concept TRAnsferシステムであるiCONTRAを導入する。
iCONTRAは、経験豊富なデザイナーと初心者の両方が、創造的なデザインコンセプトを熱心に探求することを可能にする。
また、微調整モデルを必要としないゼロショット画像編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:48:39Z) - iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image
Diffusion Model for Interior Design [42.061819736162356]
本稿では,CLIPフィードバックによるカリキュラム学習と強化学習による微調整戦略を提案する。
収集したデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-12-07T14:37:01Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Towards Flexible Multi-modal Document Models [27.955214767628107]
本研究では,様々な設計課題を共同で解決できる包括的モデルの構築を試みる。
われわれのモデルはFlexDMで表され、ベクトルグラフィック文書をマルチモーダル要素の調和した集合として扱う。
実験の結果、我々の単一のFlexDMが様々な設計タスクをうまく解決できることがわかった。
論文 参考訳(メタデータ) (2023-03-31T17:59:56Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [81.5482196644596]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。