論文の概要: MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation
- arxiv url: http://arxiv.org/abs/2509.15357v1
- Date: Thu, 18 Sep 2025 18:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.873238
- Title: MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation
- Title(参考訳): MaskAttn-SDXL:制御可能な領域レベルテキスト・画像生成
- Authors: Yu Chang, Jiahao Chen, Anzhe Cheng, Paul Bogdan,
- Abstract要約: 安定拡散XL(SDXL)のUNetのクロスアテンションロジットに適用した領域レベルのゲーティング機構であるMaskAttn-SDXLを提案する。
MaskAttn-SDXLは、層ごとのバイナリマスクを学習し、トークン間相互作用をスパシフィケートするために、ソフトマックスの前に各アテンションロジットマップにそれを注入する。
画像の質と多様性を保ちながら,マルチオブジェクトプロンプトにおける空間コンプライアンスと属性バインディングを改善した。
- 参考スコア(独自算出の注目度): 10.894281690166418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models achieve impressive realism but often suffer from compositional failures on prompts with multiple objects, attributes, and spatial relations, resulting in cross-token interference where entities entangle, attributes mix across objects, and spatial cues are violated. To address these failures, we propose MaskAttn-SDXL,a region-level gating mechanism applied to the cross-attention logits of Stable Diffusion XL(SDXL)'s UNet. MaskAttn-SDXL learns a binary mask per layer, injecting it into each cross-attention logit map before softmax to sparsify token-to-latent interactions so that only semantically relevant connections remain active. The method requires no positional encodings, auxiliary tokens, or external region masks, and preserves the original inference path with negligible overhead. In practice, our model improves spatial compliance and attribute binding in multi-object prompts while preserving overall image quality and diversity. These findings demonstrate that logit-level maksed cross-attention is an data-efficient primitve for enforcing compositional control, and our method thus serves as a practical extension for spatial control in text-to-image generation.
- Abstract(参考訳): テキストと画像の拡散モデルは印象的なリアリズムを実現するが、しばしば複数のオブジェクト、属性、空間的関係を持つプロンプトに対する構成上の失敗に悩まされる。
これらの障害に対処するために,安定拡散XL(SDXL)のUNetのクロスアテンションロジットに適用した領域レベルのゲーティング機構であるMaskAttn-SDXLを提案する。
MaskAttn-SDXLは、層ごとのバイナリマスクを学習し、それをソフトマックスの前に各クロスアテンションロジットマップに注入し、トークン間相互作用をスパシフィケートし、意味的に関係のある接続のみがアクティブになるようにする。
この方法は、位置エンコーディング、補助トークン、または外部領域マスクを必要とせず、元の推論パスを無視可能なオーバーヘッドで保存する。
実際のモデルでは、画像の質と多様性を保ちながら、マルチオブジェクトプロンプトにおける空間コンプライアンスと属性バインディングを改善している。
以上の結果から,ロジットレベルのマスド・クロスアテンションは構成制御を行うためのデータ効率の高いプライマリトベであり,本手法はテキスト・画像生成における空間制御の実践的拡張として機能することがわかった。
関連論文リスト
- SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models [16.109077391631917]
我々は,クロスアテンションだけで非常に粗い物体の局在が得られ,初期種子が得られることを示した。
また、単純なテキスト誘導合成画像は、一様背景を持つことが多く、対応を見つけるのが容易であることも観察した。
提案手法はSeeDiffと呼ばれ,Stable Diffusionから高品質なマスクをオフザシェルフで生成する。
論文 参考訳(メタデータ) (2025-07-26T05:44:00Z) - SmartEraser: Remove Anything from Images using Masked-Region Guidance [114.36809682798784]
SmartEraserはMasked-Region Guidanceと呼ばれる新しい削除パラダイムで構築されている。
Masked-Region Guidanceは、削除プロセスのガイダンスとして、入力中のマスクされた領域を保持します。
大規模オブジェクト除去データセットであるSyn4Removalを提案する。
論文 参考訳(メタデータ) (2025-01-14T17:55:12Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。