論文の概要: UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation
- arxiv url: http://arxiv.org/abs/2512.08897v1
- Date: Tue, 09 Dec 2025 18:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.096833
- Title: UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation
- Title(参考訳): UniLayDiff:コンテンツ対応レイアウト生成のための統一拡散変換器
- Authors: Zeyang Liu, Le Wang, Sanping Zhou, Yuxuan Wu, Xiaolong Sun, Gang Hua, Haoxiang Li,
- Abstract要約: コンテンツ対応レイアウト生成タスクのための統一拡散変換器UniLayDiffを提案する。
我々は、背景画像、レイアウト要素、および多様な制約の間の複雑な相互作用を捉えるために、マルチモード拡散トランスフォーマフレームワークを使用します。
実験により、UniLayDiffは条件のないタスクから様々な条件生成タスクにまたがって最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 54.38636515750502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-aware layout generation is a critical task in graphic design automation, focused on creating visually appealing arrangements of elements that seamlessly blend with a given background image. The variety of real-world applications makes it highly challenging to develop a single model capable of unifying the diverse range of input-constrained generation sub-tasks, such as those conditioned by element types, sizes, or their relationships. Current methods either address only a subset of these tasks or necessitate separate model parameters for different conditions, failing to offer a truly unified solution. In this paper, we propose UniLayDiff: a Unified Diffusion Transformer, that for the first time, addresses various content-aware layout generation tasks with a single, end-to-end trainable model. Specifically, we treat layout constraints as a distinct modality and employ Multi-Modal Diffusion Transformer framework to capture the complex interplay between the background image, layout elements, and diverse constraints. Moreover, we integrate relation constraints through fine-tuning the model with LoRA after pretraining the model on other tasks. Such a schema not only achieves unified conditional generation but also enhances overall layout quality. Extensive experiments demonstrate that UniLayDiff achieves state-of-the-art performance across from unconditional to various conditional generation tasks and, to the best of our knowledge, is the first model to unify the full range of content-aware layout generation tasks.
- Abstract(参考訳): コンテンツ対応レイアウト生成はグラフィックデザインの自動化において重要なタスクであり、与えられた背景画像とシームレスに融合する要素の視覚的に魅力的な配列を作成することに焦点を当てている。
現実世界の様々な応用により、要素タイプ、サイズ、あるいはそれらの関係によって条件付けられた入力制約された世代サブタスクの多様な範囲を統一できる単一のモデルを開発することが非常に困難になる。
現在のメソッドは、これらのタスクのサブセットだけに対処するか、異なる条件に対して別々のモデルパラメータを必要とするかのいずれかであり、真に統一されたソリューションを提供していない。
本稿では,UniLayDiff: a Unified Diffusion Transformerを提案する。
具体的には、レイアウト制約を異なるモダリティとして扱い、背景画像、レイアウト要素、および多様な制約の間の複雑な相互作用を捉えるために、マルチモーダル拡散変換フレームワークを用いる。
さらに、他のタスクでモデルを事前訓練した後、モデルとLoRAを微調整することで関係制約を統合する。
このようなスキーマは、統一された条件生成を達成するだけでなく、全体のレイアウト品質を向上させる。
広範にわたる実験により,UniLayDiffは無条件から様々な条件生成タスクにまたがる最先端のパフォーマンスを達成し,私たちの知る限り,コンテンツ対応レイアウト生成タスクの全範囲を統一する最初のモデルであることがわかった。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [71.24909962718128]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。
単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。
提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文 参考訳(メタデータ) (2023-03-09T05:53:32Z) - DLT: Conditioned layout generation with Joint Discrete-Continuous
Diffusion Layout Transformer [2.0483033421034142]
DLTは離散連続拡散モデルである。
DLTにはフレキシブルな条件付け機構があり、すべてのレイアウトコンポーネントクラス、場所、サイズのいずれかのサブセットを条件付けできる。
提案手法は,様々なレイアウト生成データセット上で,様々なメトリクスや条件設定に対して,最先端の生成モデルより優れています。
論文 参考訳(メタデータ) (2023-03-07T09:30:43Z) - LayoutFormer++: Conditional Graphic Layout Generation via Constraint
Serialization and Decoding Space Restriction [37.6871815321083]
条件付きグラフィックレイアウト生成は、まだ十分に研究されていない課題である。
本稿では,制約シリアライズ方式,シーケンス・ツー・シーケンス変換,デコード空間制限戦略を提案する。
実験によると、LayoutFormer++は、すべてのタスクにおいて、より優れた生成品質と制約違反の両方の観点から、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-08-17T02:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。