論文の概要: Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2511.07934v1
- Date: Wed, 12 Nov 2025 01:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.554445
- Title: Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers
- Title(参考訳): Laytrol:マルチモーダル拡散変換器のレイアウト制御における事前知識の保存
- Authors: Sida Huang, Siqi Huang, Ping Luo, Hongyuan Zhang,
- Abstract要約: レイアウト・トゥ・イメージ生成は、所定のレイアウト条件に空間的に整合した画像を生成することを目的としている。
既存のレイアウト・トゥ・イメージ方式では、アダプタモジュールをベース生成モデルに統合することでレイアウト条件を導入するのが一般的である。
本稿では,MM-DiTからパラメータを継承し,事前学習したベースモデルの知識を保存するレイアウト制御ネットワークを提案する。
- 参考スコア(独自算出の注目度): 30.863250877729612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of diffusion models, enhancing spatial controllability in text-to-image generation has become a vital challenge. As a representative task for addressing this challenge, layout-to-image generation aims to generate images that are spatially consistent with the given layout condition. Existing layout-to-image methods typically introduce the layout condition by integrating adapter modules into the base generative model. However, the generated images often exhibit low visual quality and stylistic inconsistency with the base model, indicating a loss of pretrained knowledge. To alleviate this issue, we construct the Layout Synthesis (LaySyn) dataset, which leverages images synthesized by the base model itself to mitigate the distribution shift from the pretraining data. Moreover, we propose the Layout Control (Laytrol) Network, in which parameters are inherited from MM-DiT to preserve the pretrained knowledge of the base model. To effectively activate the copied parameters and avoid disturbance from unstable control conditions, we adopt a dedicated initialization scheme for Laytrol. In this scheme, the layout encoder is initialized as a pure text encoder to ensure that its output tokens remain within the data domain of MM-DiT. Meanwhile, the outputs of the layout control network are initialized to zero. In addition, we apply Object-level Rotary Position Embedding to the layout tokens to provide coarse positional information. Qualitative and quantitative experiments demonstrate the effectiveness of our method.
- Abstract(参考訳): 拡散モデルの開発に伴い,テキスト・画像生成における空間制御性の向上が重要な課題となっている。
この課題に対処するための代表的なタスクとして、レイアウト・ツー・イメージ生成は、所定のレイアウト条件に空間的に整合した画像を生成することを目的としている。
既存のレイアウト・トゥ・イメージ方式では、アダプタモジュールをベース生成モデルに統合することでレイアウト条件を導入するのが一般的である。
しかし、生成された画像は、しばしば、ベースモデルと低い視覚的品質とスタイリスティックな不整合を示し、事前訓練された知識の喪失を示す。
この問題を軽減するために,ベースモデル自体によって合成された画像を活用し,事前学習データから分布シフトを緩和するLayout Synthesis(LaySyn)データセットを構築した。
さらに、MM-DiTからパラメータを継承し、ベースモデルの事前学習した知識を保存するレイアウト制御(Laytrol)ネットワークを提案する。
コピーされたパラメータを効果的に活性化し、不安定な制御条件からの障害を回避するために、Laytrolの専用初期化方式を採用する。
このスキームでは、レイアウトエンコーダは純粋なテキストエンコーダとして初期化され、その出力トークンがMM-DiTのデータ領域内にあることを保証する。
一方、レイアウト制御ネットワークの出力はゼロに初期化される。
さらに,レイアウトトークンにオブジェクトレベルの回転位置埋め込みを適用し,粗い位置情報を提供する。
定性的かつ定量的な実験により,本手法の有効性が示された。
関連論文リスト
- A Two-Stage System for Layout-Controlled Image Generation using Large Language Models and Diffusion Models [0.0]
テキストから画像への拡散モデルは、顕著な生成能力を示すが、対象数や空間配置の正確な制御は欠如している。
この研究は、これらの構成制限に対処する2段階のシステムを導入する。
最初のステージでは、オブジェクトのリストから構造化レイアウトを生成するために、LLM(Large Language Model)を採用している。
第2段階では、レイアウト条件付き拡散モデルを用いて、このレイアウトに付着したフォトリアリスティック画像を合成する。
論文 参考訳(メタデータ) (2025-11-10T09:40:48Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Spatial-Aware Latent Initialization for Controllable Image Generation [9.23227552726271]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力に条件付けされた高品質な画像を生成することができる。
従来の研究は、主にレイアウト条件と交差注意マップの整合性に重点を置いてきた。
そこで本研究では,デノナイズ過程における空間認識初期化雑音を利用して,より優れたレイアウト制御を実現することを提案する。
論文 参考訳(メタデータ) (2024-01-29T13:42:01Z) - LayoutDM: Discrete Diffusion Model for Controllable Layout Generation [27.955214767628107]
制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。
本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。
我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
論文 参考訳(メタデータ) (2023-03-14T17:59:47Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。