論文の概要: Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects
- arxiv url: http://arxiv.org/abs/2505.20909v1
- Date: Tue, 27 May 2025 08:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.529192
- Title: Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects
- Title(参考訳): 任意の場所を創出する:複数の被験者を対象としたレイアウト可能なパーソナライズド拡散モデル
- Authors: Wei Li, Hebei Li, Yansong Peng, Siying Wu, Yueyi Zhang, Xiaoyan Sun,
- Abstract要約: LCP-Diffusionは、被写体識別をフレキシブルなレイアウトガイダンスと統合した新しいフレームワークである。
実験により、LCP拡散はアイデンティティ保存とレイアウト制御の両面で優れていることが確認された。
- 参考スコア(独自算出の注目度): 13.980211126764349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly advanced text-to-image generation, laying the foundation for the development of personalized generative frameworks. However, existing methods lack precise layout controllability and overlook the potential of dynamic features of reference subjects in improving fidelity. In this work, we propose Layout-Controllable Personalized Diffusion (LCP-Diffusion) model, a novel framework that integrates subject identity preservation with flexible layout guidance in a tuning-free approach. Our model employs a Dynamic-Static Complementary Visual Refining module to comprehensively capture the intricate details of reference subjects, and introduces a Dual Layout Control mechanism to enforce robust spatial control across both training and inference stages. Extensive experiments validate that LCP-Diffusion excels in both identity preservation and layout controllability. To the best of our knowledge, this is a pioneering work enabling users to "create anything anywhere".
- Abstract(参考訳): 拡散モデルはテキスト・ツー・イメージ・ジェネレーションを著しく進歩させ、パーソナライズされた生成フレームワークの開発の基礎を築いた。
しかし,既存の手法では正確なレイアウト制御性が欠如しており,参照対象の動的特徴が忠実性を向上させる可能性を見落としている。
本研究では,個人性保護とフレキシブルなレイアウトガイダンスを統合した新しいフレームワークであるLayout-Controllable Personalized Diffusion (LCP-Diffusion) モデルを提案する。
本モデルでは、参照対象の複雑な詳細を包括的に把握するために、動的統計補足型ビジュアルリファインティングモジュールを使用し、トレーニング段階と推論段階の両方で堅牢な空間制御を行うためのデュアルレイアウト制御機構を導入している。
広範囲な実験により、LCP拡散はアイデンティティ保存とレイアウト制御性の両方において優れていることが検証された。
私たちの知る限りでは、これは先駆的な作業であり、ユーザは“どこにでも作成できる”。
関連論文リスト
- CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [72.79720246590522]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:14:23Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LayoutDM: Discrete Diffusion Model for Controllable Layout Generation [27.955214767628107]
制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。
本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。
我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
論文 参考訳(メタデータ) (2023-03-14T17:59:47Z) - DLT: Conditioned layout generation with Joint Discrete-Continuous
Diffusion Layout Transformer [2.0483033421034142]
DLTは離散連続拡散モデルである。
DLTにはフレキシブルな条件付け機構があり、すべてのレイアウトコンポーネントクラス、場所、サイズのいずれかのサブセットを条件付けできる。
提案手法は,様々なレイアウト生成データセット上で,様々なメトリクスや条件設定に対して,最先端の生成モデルより優れています。
論文 参考訳(メタデータ) (2023-03-07T09:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。