Fugu-MT 論文翻訳(概要): COLE: A Hierarchical Generation Framework for Graphic Design

論文の概要: COLE: A Hierarchical Generation Framework for Graphic Design

arxiv url: http://arxiv.org/abs/2311.16974v1
Date: Tue, 28 Nov 2023 17:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 17:27:10.680081
Title: COLE: A Hierarchical Generation Framework for Graphic Design
Title（参考訳）: cole: グラフィックデザインのための階層的生成フレームワーク
Authors: Peidong Jia and Chenxuan Li and Zeyu Liu and Yichao Shen and Xingru Chen and Yuhui Yuan and Yinglin Zheng and Dong Chen and Ji Li and Xiaodong Xie and Shanghang Zhang and Baining Guo
Abstract要約: 15世紀から進化してきたグラフィックデザインは、広告において重要な役割を担っている。本稿では,これらの課題を包括的に解決するために設計された階層型生成フレームワークであるCOLEを紹介する。 COLEは、簡単な意図的なプロンプトを高品質なグラフィックデザインに変換すると同時に、ユーザ入力に基づいた柔軟な編集をサポートする。
参考スコア（独自算出の注目度）: 40.09673158568953
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graphic design, which has been evolving since the 15th century, plays a crucial role in advertising. The creation of high-quality designs demands creativity, innovation, and lateral thinking. This intricate task involves understanding the objective, crafting visual elements such as the background, decoration, font, color, and shape, formulating diverse professional layouts, and adhering to fundamental visual design principles. In this paper, we introduce COLE, a hierarchical generation framework designed to comprehensively address these challenges. This COLE system can transform a straightforward intention prompt into a high-quality graphic design, while also supporting flexible editing based on user input. Examples of such input might include directives like ``design a poster for Hisaishi's concert.'' The key insight is to dissect the complex task of text-to-design generation into a hierarchy of simpler sub-tasks, each addressed by specialized models working collaboratively. The results from these models are then consolidated to produce a cohesive final output. Our hierarchical task decomposition can streamline the complex process and significantly enhance generation reliability. Our COLE system consists of multiple fine-tuned Large Language Models (LLMs), Large Multimodal Models (LMMs), and Diffusion Models (DMs), each specifically tailored for a design-aware text or image generation task. Furthermore, we construct the DESIGNERINTENTION benchmark to highlight the superiority of our COLE over existing methods in generating high-quality graphic designs from user intent. We perceive our COLE as an important step towards addressing more complex visual design generation tasks in the future.
Abstract（参考訳）: 15世紀から進化してきたグラフィックデザインは、広告において重要な役割を担っている。高品質なデザインの創造は、創造性、革新、横方向の思考を必要とする。この複雑なタスクは目的を理解し、背景、装飾、フォント、色、形状などの視覚的要素を作成し、様々な専門的なレイアウトを定式化し、基本的なビジュアルデザイン原則に固執する。本稿では,これらの課題を包括的に解決するための階層型生成フレームワークであるCOLEを紹介する。このCOLEシステムは、簡単な意図のプロンプトを高品質なグラフィックデザインに変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。このようなインプットの例としては、『久石のコンサートのポスターをデザインする』などの指示がある。重要な洞察は、テキスト・デザイン生成の複雑なタスクを単純なサブタスクの階層に分解することであり、それぞれが協調して動作する専門モデルによって対処される。これらのモデルの結果は統合され、結束した最終的な出力を生成する。我々の階層的なタスク分解は複雑なプロセスを合理化し、生成信頼性を大幅に向上させることができる。我々のCOLEシステムは、複数の微調整されたLarge Language Model(LLM)、Large Multimodal Model(LMM)、Diffusion Models(DM)で構成されており、それぞれがデザイン対応のテキストや画像生成タスクに特化している。さらに,ユーザ意図から高品質なグラフィックデザインを生成する既存手法よりもCOLEの方が優れていることを示すために,DESIGNERINTENTIONベンチマークを構築した。私たちはcoleを、より複雑なビジュアルデザイン生成タスクに取り組むための重要なステップとして捉えています。

関連論文リスト

IGD: Instructional Graphic Design with Multimodal Layer Generation [83.31320209596991]
レイアウト生成に大きく依存する2段階の手法は創造性とインテリジェンスに欠けており、グラフィックデザインは依然として労働集約的である。自然言語命令のみで編集可能な柔軟性を持つマルチモーダル層を高速に生成するインストラクショナルグラフィックデザイナ(IGD)を提案する。
論文参考訳（メタデータ） (2025-07-14T04:31:15Z)
Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。 GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文参考訳（メタデータ） (2025-07-08T02:26:08Z)
CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [69.83433430133302]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文参考訳（メタデータ） (2025-05-25T12:14:23Z)
From Elements to Design: A Layered Approach for Automatic Graphic Design Composition [16.262338090888342]
階層設計の原理をLMM(Large Multimodal Models)に導入する。 LaDeCoは与えられた要素セットに対してレイヤプランニングを行い、入力要素をその内容に応じて異なるセマンティックレイヤに分割する。その後、設計構成を階層的に制御する要素属性を予測し、以前に生成されたレイヤのレンダリングイメージをコンテキストに含める。
論文参考訳（メタデータ） (2024-12-27T16:13:08Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
Group Diffusion Transformers are Unsupervised Multitask Learners [49.288489286276146]
GDT(Group Diffusion Transformers)は、多様な視覚生成タスクを統合する新しいフレームワークである。 GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。我々は、30の視覚生成タスクに200以上の命令を割り当てたベンチマークでGDTを評価した。
論文参考訳（メタデータ） (2024-10-19T07:53:15Z)
Multimodal Markup Document Models for Graphic Design Completion [23.009208137043178]
本稿では,マルチモーダル文書内のマークアップ言語と画像の両方を生成可能なマルチモーダルマークアップ文書モデル(MarkupDM)を提案する。既存のヴィジュアル・アンド・ランゲージのマルチモーダルモデルとは異なり、MarkupDMはグラフィックデザインタスクに不可欠なユニークな課題に取り組む。我々は,多彩なサイズの画像を透過的にトークン化し,マークアップ言語を処理し,画像モダリティを組み込むためのコード言語モデルを修正するために,画像量化器を設計する。
論文参考訳（メタデータ） (2024-09-27T18:00:01Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文参考訳（メタデータ） (2024-04-23T17:58:33Z)
Graphic Design with Large Multimodal Model [38.96206668552293]
Hierarchical Layout Generation (HLG) はより柔軟で実用的な設定であり、未順序の設計要素の集合からグラフィック合成を生成する。 HLGタスクに取り組むために,大規模なマルチモーダルモデルに基づく最初のレイアウト生成モデルであるGraphistを導入する。グラフは、RGB-A画像を入力として利用して、HLGをシーケンス生成問題として効率的に再構成する。
論文参考訳（メタデータ） (2024-04-22T17:20:38Z)
PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (2023-03-28T12:48:36Z)
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文参考訳（メタデータ） (2022-12-19T21:57:35Z)
The Layout Generation Algorithm of Graphic Design Based on Transformer-CVAE [8.052709336750823]
本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。既存の最先端モデルと比較して、当社が生成したレイアウトは、多くのメトリクスでより良く機能します。
論文参考訳（メタデータ） (2021-10-08T13:36:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。