論文の概要: COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design
- arxiv url: http://arxiv.org/abs/2311.16974v2
- Date: Mon, 18 Mar 2024 21:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:01:19.807057
- Title: COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design
- Title(参考訳): COLE:多層・編集可能なグラフィクス設計のための階層型生成フレームワーク
- Authors: Peidong Jia, Chenxuan Li, Yuhui Yuan, Zeyu Liu, Yichao Shen, Bohan Chen, Xingru Chen, Yinglin Zheng, Dong Chen, Ji Li, Xiaodong Xie, Shanghang Zhang, Baining Guo,
- Abstract要約: 本稿では,これらの課題に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
- 参考スコア(独自算出の注目度): 39.809852329070466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphic design, which has been evolving since the 15th century, plays a crucial role in advertising. The creation of high-quality designs demands design-oriented planning, reasoning, and layer-wise generation. Unlike the recent CanvaGPT, which integrates GPT-4 with existing design templates to build a custom GPT, this paper introduces the COLE system - a hierarchical generation framework designed to comprehensively address these challenges. This COLE system can transform a vague intention prompt into a high-quality multi-layered graphic design, while also supporting flexible editing based on user input. Examples of such input might include directives like ``design a poster for Hisaishi's concert.'' The key insight is to dissect the complex task of text-to-design generation into a hierarchy of simpler sub-tasks, each addressed by specialized models working collaboratively. The results from these models are then consolidated to produce a cohesive final output. Our hierarchical task decomposition can streamline the complex process and significantly enhance generation reliability. Our COLE system comprises multiple fine-tuned Large Language Models (LLMs), Large Multimodal Models (LMMs), and Diffusion Models (DMs), each specifically tailored for design-aware layer-wise captioning, layout planning, reasoning, and the task of generating images and text. Furthermore, we construct the DESIGNINTENTION benchmark to demonstrate the superiority of our COLE system over existing methods in generating high-quality graphic designs from user intent. Last, we present a Canva-like multi-layered image editing tool to support flexible editing of the generated multi-layered graphic design images. We perceive our COLE system as an important step towards addressing more complex and multi-layered graphic design generation tasks in the future.
- Abstract(参考訳): 15世紀から進化してきたグラフィックデザインは、広告において重要な役割を担っている。
高品質な設計を作成するには、設計指向の計画、推論、レイヤワイズ生成が必要である。
GPT-4を既存のデザインテンプレートと統合して独自のGPTを構築するCanvaGPTとは異なり、本研究ではこれらの課題に包括的に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
このような入力の例としては、久石の演奏会の「ポスターをデザインする」などの指示がある。
重要な洞察は、テキスト・デザイン生成の複雑なタスクを単純なサブタスクの階層に分解することであり、それぞれが協調して動作する専門モデルによって対処される。
これらのモデルの結果は、結合的な最終的な出力を生成するために統合される。
我々の階層的なタスク分解は、複雑なプロセスを合理化し、生成信頼性を大幅に向上させることができる。
我々のCOLEシステムは、複数の微調整されたLarge Language Model(LLM)、Large Multimodal Model(LMM)、Diffusion Models(DM)から構成される。
さらに,ユーザ意図から高品質なグラフィックデザインを生成する上で,既存の手法よりもCOLEシステムの方が優れていることを示すために,DESIGNINTENTIONベンチマークを構築した。
最後に、生成した多層グラフィック画像のフレキシブルな編集を支援するCanvaのような多層画像編集ツールを提案する。
我々はCOLEシステムを、より複雑で多層的なグラフィックデザイン生成タスクに今後取り組むための重要なステップとして捉えている。
関連論文リスト
- Group Diffusion Transformers are Unsupervised Multitask Learners [49.288489286276146]
GDT(Group Diffusion Transformers)は、多様な視覚生成タスクを統合する新しいフレームワークである。
GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。
我々は、30の視覚生成タスクに200以上の命令を割り当てたベンチマークでGDTを評価した。
論文 参考訳(メタデータ) (2024-10-19T07:53:15Z) - Multimodal Markup Document Models for Graphic Design Completion [23.009208137043178]
本稿では,マルチモーダル文書内のマークアップ言語と画像の両方を生成可能なマルチモーダルマークアップ文書モデル(MarkupDM)を提案する。
既存のヴィジュアル・アンド・ランゲージのマルチモーダルモデルとは異なり、MarkupDMはグラフィックデザインタスクに不可欠なユニークな課題に取り組む。
我々は,多彩なサイズの画像を透過的にトークン化し,マークアップ言語を処理し,画像モダリティを組み込むためのコード言語モデルを修正するために,画像量化器を設計する。
論文 参考訳(メタデータ) (2024-09-27T18:00:01Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - Graphic Design with Large Multimodal Model [38.96206668552293]
Hierarchical Layout Generation (HLG) はより柔軟で実用的な設定であり、未順序の設計要素の集合からグラフィック合成を生成する。
HLGタスクに取り組むために,大規模なマルチモーダルモデルに基づく最初のレイアウト生成モデルであるGraphistを導入する。
グラフは、RGB-A画像を入力として利用して、HLGをシーケンス生成問題として効率的に再構成する。
論文 参考訳(メタデータ) (2024-04-22T17:20:38Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - The Layout Generation Algorithm of Graphic Design Based on
Transformer-CVAE [8.052709336750823]
本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。
これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。
既存の最先端モデルと比較して、当社が生成したレイアウトは、多くのメトリクスでより良く機能します。
論文 参考訳(メタデータ) (2021-10-08T13:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。