論文の概要: IGD: Instructional Graphic Design with Multimodal Layer Generation
- arxiv url: http://arxiv.org/abs/2507.09910v1
- Date: Mon, 14 Jul 2025 04:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.268687
- Title: IGD: Instructional Graphic Design with Multimodal Layer Generation
- Title(参考訳): IGD:マルチモーダル層生成によるインストラクショナルグラフィック設計
- Authors: Yadong Qu, Shancheng Fang, Yuxin Wang, Xiaorui Wang, Zhineng Chen, Hongtao Xie, Yongdong Zhang,
- Abstract要約: レイアウト生成に大きく依存する2段階の手法は創造性とインテリジェンスに欠けており、グラフィックデザインは依然として労働集約的である。
自然言語命令のみで編集可能な柔軟性を持つマルチモーダル層を高速に生成するインストラクショナルグラフィックデザイナ(IGD)を提案する。
- 参考スコア(独自算出の注目度): 83.31320209596991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphic design visually conveys information and data by creating and combining text, images and graphics. Two-stage methods that rely primarily on layout generation lack creativity and intelligence, making graphic design still labor-intensive. Existing diffusion-based methods generate non-editable graphic design files at image level with poor legibility in visual text rendering, which prevents them from achieving satisfactory and practical automated graphic design. In this paper, we propose Instructional Graphic Designer (IGD) to swiftly generate multimodal layers with editable flexibility with only natural language instructions. IGD adopts a new paradigm that leverages parametric rendering and image asset generation. First, we develop a design platform and establish a standardized format for multi-scenario design files, thus laying the foundation for scaling up data. Second, IGD utilizes the multimodal understanding and reasoning capabilities of MLLM to accomplish attribute prediction, sequencing and layout of layers. It also employs a diffusion model to generate image content for assets. By enabling end-to-end training, IGD architecturally supports scalability and extensibility in complex graphic design tasks. The superior experimental results demonstrate that IGD offers a new solution for graphic design.
- Abstract(参考訳): グラフィックデザインは、テキスト、画像、グラフィックを作成し、組み合わせることで、情報とデータを視覚的に伝達する。
レイアウト生成に大きく依存する2段階の手法は創造性とインテリジェンスに欠けており、グラフィックデザインは依然として労働集約的である。
既存の拡散法では、画像レベルでの編集不可能なグラフィックデザインファイルを生成するが、視覚テキストレンダリングでは適度で実用的なグラフィックデザインを達成できない。
本稿では,自然言語命令のみで編集可能な柔軟性を持つ多モード層を高速に生成するインストラクショナルグラフィックデザイナ(IGD)を提案する。
IGDはパラメトリックレンダリングと画像アセット生成を活用する新しいパラダイムを採用している。
まず、設計プラットフォームを開発し、マルチシナリオ設計ファイルの標準化フォーマットを確立することにより、データのスケールアップの基礎を築いた。
第2に,階層の属性予測,シークエンシング,レイアウトを実現するために,MLLMのマルチモーダル理解と推論機能を利用する。
また、拡散モデルを用いて資産の画像コンテンツを生成する。
エンドツーエンドのトレーニングを可能にすることで、IGDは複雑なグラフィックデザインタスクのスケーラビリティと拡張性をサポートする。
優れた実験結果は、IGDがグラフィックデザインの新しいソリューションを提供することを示している。
関連論文リスト
- Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。
GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。
これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。
本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文 参考訳(メタデータ) (2025-07-08T02:26:08Z) - CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation [13.354283356097563]
CreatiPosterは、任意の自然言語命令やアセットから編集可能な多層合成を生成するフレームワークである。
さらなる研究のために、我々は10万の多層設計の著作権フリーコーパスをリリースする。
論文 参考訳(メタデータ) (2025-06-12T16:54:39Z) - CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [69.83433430133302]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:14:23Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design [39.809852329070466]
本稿では,これらの課題に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
論文 参考訳(メタデータ) (2023-11-28T17:22:17Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。