論文の概要: MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation
- arxiv url: http://arxiv.org/abs/2509.15357v1
- Date: Thu, 18 Sep 2025 18:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.873238
- Title: MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation
- Title(参考訳): MaskAttn-SDXL:制御可能な領域レベルテキスト・画像生成
- Authors: Yu Chang, Jiahao Chen, Anzhe Cheng, Paul Bogdan,
- Abstract要約: 安定拡散XL(SDXL)のUNetのクロスアテンションロジットに適用した領域レベルのゲーティング機構であるMaskAttn-SDXLを提案する。
MaskAttn-SDXLは、層ごとのバイナリマスクを学習し、トークン間相互作用をスパシフィケートするために、ソフトマックスの前に各アテンションロジットマップにそれを注入する。
画像の質と多様性を保ちながら,マルチオブジェクトプロンプトにおける空間コンプライアンスと属性バインディングを改善した。
- 参考スコア(独自算出の注目度): 10.894281690166418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models achieve impressive realism but often suffer from compositional failures on prompts with multiple objects, attributes, and spatial relations, resulting in cross-token interference where entities entangle, attributes mix across objects, and spatial cues are violated. To address these failures, we propose MaskAttn-SDXL,a region-level gating mechanism applied to the cross-attention logits of Stable Diffusion XL(SDXL)'s UNet. MaskAttn-SDXL learns a binary mask per layer, injecting it into each cross-attention logit map before softmax to sparsify token-to-latent interactions so that only semantically relevant connections remain active. The method requires no positional encodings, auxiliary tokens, or external region masks, and preserves the original inference path with negligible overhead. In practice, our model improves spatial compliance and attribute binding in multi-object prompts while preserving overall image quality and diversity. These findings demonstrate that logit-level maksed cross-attention is an data-efficient primitve for enforcing compositional control, and our method thus serves as a practical extension for spatial control in text-to-image generation.
- Abstract(参考訳): テキストと画像の拡散モデルは印象的なリアリズムを実現するが、しばしば複数のオブジェクト、属性、空間的関係を持つプロンプトに対する構成上の失敗に悩まされる。
これらの障害に対処するために,安定拡散XL(SDXL)のUNetのクロスアテンションロジットに適用した領域レベルのゲーティング機構であるMaskAttn-SDXLを提案する。
MaskAttn-SDXLは、層ごとのバイナリマスクを学習し、それをソフトマックスの前に各クロスアテンションロジットマップに注入し、トークン間相互作用をスパシフィケートし、意味的に関係のある接続のみがアクティブになるようにする。
この方法は、位置エンコーディング、補助トークン、または外部領域マスクを必要とせず、元の推論パスを無視可能なオーバーヘッドで保存する。
実際のモデルでは、画像の質と多様性を保ちながら、マルチオブジェクトプロンプトにおける空間コンプライアンスと属性バインディングを改善している。
以上の結果から,ロジットレベルのマスド・クロスアテンションは構成制御を行うためのデータ効率の高いプライマリトベであり,本手法はテキスト・画像生成における空間制御の実践的拡張として機能することがわかった。
関連論文リスト
- SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models [16.109077391631917]
我々は,クロスアテンションだけで非常に粗い物体の局在が得られ,初期種子が得られることを示した。
また、単純なテキスト誘導合成画像は、一様背景を持つことが多く、対応を見つけるのが容易であることも観察した。
提案手法はSeeDiffと呼ばれ,Stable Diffusionから高品質なマスクをオフザシェルフで生成する。
論文 参考訳(メタデータ) (2025-07-26T05:44:00Z) - PathDiff: Histopathology Image Synthesis with Unpaired Text and Mask Conditions [38.32128533564591]
公開データセットには、同じ病理像に対するペアテキストとマスクデータがない。
マスクテキストデータから効果的に学習する拡散フレームワークPathDiffを提案する。
PathDiffは、構造的特徴と文脈的特徴を正確に制御し、高品質で意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2025-06-30T00:31:03Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - SmartEraser: Remove Anything from Images using Masked-Region Guidance [114.36809682798784]
SmartEraserはMasked-Region Guidanceと呼ばれる新しい削除パラダイムで構築されている。
Masked-Region Guidanceは、削除プロセスのガイダンスとして、入力中のマスクされた領域を保持します。
大規模オブジェクト除去データセットであるSyn4Removalを提案する。
論文 参考訳(メタデータ) (2025-01-14T17:55:12Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。