論文の概要: CoLay: Controllable Layout Generation through Multi-conditional Latent Diffusion
- arxiv url: http://arxiv.org/abs/2405.13045v1
- Date: Sat, 18 May 2024 17:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:41:59.077176
- Title: CoLay: Controllable Layout Generation through Multi-conditional Latent Diffusion
- Title(参考訳): CoLay: 多条件遅延拡散による制御可能なレイアウト生成
- Authors: Chin-Yi Cheng, Ruiqi Gao, Forrest Huang, Yang Li,
- Abstract要約: 既存のモデルは、実践における採用を制限する2つの大きな課題に直面します。
既存のモデルのほとんどはラベルと座標の生成に重点を置いており、実際のレイアウトには様々なスタイルの特性が含まれている。
本稿では,複数の条件タイプを統合し,多様なスタイル特性を持つ複雑なレイアウトを生成する新しいフレームワークであるCoLayを提案する。
- 参考スコア(独自算出の注目度): 21.958752304572553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout design generation has recently gained significant attention due to its potential applications in various fields, including UI, graphic, and floor plan design. However, existing models face two main challenges that limits their adoption in practice. Firstly, the limited expressiveness of individual condition types used in previous works restricts designers' ability to convey complex design intentions and constraints. Secondly, most existing models focus on generating labels and coordinates, while real layouts contain a range of style properties. To address these limitations, we propose a novel framework, CoLay, that integrates multiple condition types and generates complex layouts with diverse style properties. Our approach outperforms prior works in terms of generation quality and condition satisfaction while empowering users to express their design intents using a flexible combination of modalities, including natural language prompts, layout guidelines, element types, and partially completed designs.
- Abstract(参考訳): レイアウトデザイン生成は、UI、グラフィック、フロアプランデザインなど、様々な分野の潜在的な応用により、最近大きな注目を集めている。
しかし、既存のモデルは、実践における採用を制限する2つの大きな課題に直面しています。
第一に、以前の作品で使用される個々の条件型の限定表現性は、設計者が複雑な設計意図や制約を伝達する能力を制限する。
第二に、既存のモデルのほとんどはラベルと座標の生成に重点を置いており、実際のレイアウトには様々なスタイルの特性が含まれている。
このような制約に対処するために,複数の条件タイプを統合し,多様なスタイル特性を持つ複雑なレイアウトを生成する新しいフレームワークであるCoLayを提案する。
提案手法は, 自然言語プロンプト, レイアウトガイドライン, 要素タイプ, 部分完備設計など, フレキシブルな組み合わせによる設計意図の表現をユーザに提供するとともに, 生成品質と条件満足度の観点から, 従来の作業よりも優れていた。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。
評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。
これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文 参考訳(メタデータ) (2024-04-01T08:46:35Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - LayoutFormer++: Conditional Graphic Layout Generation via Constraint
Serialization and Decoding Space Restriction [37.6871815321083]
条件付きグラフィックレイアウト生成は、まだ十分に研究されていない課題である。
本稿では,制約シリアライズ方式,シーケンス・ツー・シーケンス変換,デコード空間制限戦略を提案する。
実験によると、LayoutFormer++は、すべてのタスクにおいて、より優れた生成品質と制約違反の両方の観点から、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-08-17T02:43:23Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。