論文の概要: Be Decisive: Noise-Induced Layouts for Multi-Subject Generation
- arxiv url: http://arxiv.org/abs/2505.21488v1
- Date: Tue, 27 May 2025 17:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.849284
- Title: Be Decisive: Noise-Induced Layouts for Multi-Subject Generation
- Title(参考訳): Be Decisive:マルチオブジェクト生成のためのノイズ誘起レイアウト
- Authors: Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, Daniel Cohen-Or,
- Abstract要約: 複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
- 参考スコア(独自算出の注目度): 56.80513553424086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating multiple distinct subjects remains a challenge for existing text-to-image diffusion models. Complex prompts often lead to subject leakage, causing inaccuracies in quantities, attributes, and visual features. Preventing leakage among subjects necessitates knowledge of each subject's spatial location. Recent methods provide these spatial locations via an external layout control. However, enforcing such a prescribed layout often conflicts with the innate layout dictated by the sampled initial noise, leading to misalignment with the model's prior. In this work, we introduce a new approach that predicts a spatial layout aligned with the prompt, derived from the initial noise, and refines it throughout the denoising process. By relying on this noise-induced layout, we avoid conflicts with externally imposed layouts and better preserve the model's prior. Our method employs a small neural network to predict and refine the evolving noise-induced layout at each denoising step, ensuring clear boundaries between subjects while maintaining consistency. Experimental results show that this noise-aligned strategy achieves improved text-image alignment and more stable multi-subject generation compared to existing layout-guided techniques, while preserving the rich diversity of the model's original distribution.
- Abstract(参考訳): 複数の異なる主題を生成することは、既存のテキストと画像の拡散モデルにとって依然として課題である。
複雑なプロンプトは、しばしば被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
被験者間の漏洩を防止するには,各被験者の空間的位置に関する知識が必要である。
最近の手法では、これらの空間的位置を外部レイアウト制御によって提供する。
しかし、そのような所定のレイアウトを強制することは、サンプルされた初期ノイズによって規定された自然的レイアウトとしばしば矛盾し、モデルの事前の調整に失敗する。
本研究では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,復調過程を通じて改良する手法を提案する。
このノイズによって引き起こされるレイアウトを頼りにすることで、外部から課されたレイアウトとの衝突を回避し、モデルの事前を維持します。
提案手法では,各聴覚ステップにおけるノイズ誘発レイアウトの予測と改善に小さなニューラルネットワークを用い,整合性を維持しつつ,被験者間の明確な境界を確保する。
実験結果から, このノイズアライメント戦略は, 従来のレイアウト誘導手法と比較して, テキスト画像アライメントの改善や, 複数オブジェクト生成の安定化を実現し, モデル本来の分布の多様性を保ちつつも, より安定した手法であることがわかった。
関連論文リスト
- Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Spatial-Aware Latent Initialization for Controllable Image Generation [9.23227552726271]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力に条件付けされた高品質な画像を生成することができる。
従来の研究は、主にレイアウト条件と交差注意マップの整合性に重点を置いてきた。
そこで本研究では,デノナイズ過程における空間認識初期化雑音を利用して,より優れたレイアウト制御を実現することを提案する。
論文 参考訳(メタデータ) (2024-01-29T13:42:01Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。