論文の概要: Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2308.06027v2
- Date: Mon, 30 Oct 2023 04:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 01:51:47.848917
- Title: Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation
- Title(参考訳): テキストから画像への空間制御のためのマスキング・アテンション拡散指導
- Authors: Yuki Endo
- Abstract要約: 拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
- 参考スコア(独自算出の注目度): 1.0152838128195465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis has achieved high-quality results with recent
advances in diffusion models. However, text input alone has high spatial
ambiguity and limited user controllability. Most existing methods allow spatial
control through additional visual guidance (e.g., sketches and semantic masks)
but require additional training with annotated images. In this paper, we
propose a method for spatially controlling text-to-image generation without
further training of diffusion models. Our method is based on the insight that
the cross-attention maps reflect the positional relationship between words and
pixels. Our aim is to control the attention maps according to given semantic
masks and text prompts. To this end, we first explore a simple approach of
directly swapping the cross-attention maps with constant maps computed from the
semantic regions. Some prior works also allow training-free spatial control of
text-to-image diffusion models by directly manipulating cross-attention maps.
However, these approaches still suffer from misalignment to given masks because
manipulated attention maps are far from actual ones learned by diffusion
models. To address this issue, we propose masked-attention guidance, which can
generate images more faithful to semantic masks via indirect control of
attention to each word and pixel by manipulating noise images fed to diffusion
models. Masked-attention guidance can be easily integrated into pre-trained
off-the-shelf diffusion models (e.g., Stable Diffusion) and applied to the
tasks of text-guided image editing. Experiments show that our method enables
more accurate spatial control than baselines qualitatively and quantitatively.
- Abstract(参考訳): テキストから画像への合成は,最近の拡散モデルの発展に伴い,高品質な結果が得られた。
しかし、テキスト入力だけでは空間的曖昧性が高く、ユーザー制御性は限られている。
既存の手法では、視覚誘導(スケッチやセマンティックマスクなど)の追加による空間制御が可能だが、注釈付き画像による追加の訓練が必要となる。
本稿では,拡散モデルのさらなる訓練を行わずにテキスト対画像生成を空間的に制御する手法を提案する。
本手法は,クロスアテンションマップが単語と画素の位置関係を反映しているという知見に基づく。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
この目的のために、まず、意味領域から計算された定数マップと交差注意マップを直接置き換える簡単なアプローチを探求する。
いくつかの先行研究は、クロスアテンションマップを直接操作することで、テキストと画像の拡散モデルのトレーニング不要な空間制御を可能にする。
しかし、これらのアプローチは、操作された注意マップが拡散モデルによって学習された実際のものとは程遠いため、与えられたマスクに対する誤解に苦しめられている。
この問題に対処するために,拡散モデルに入力された雑音画像を操作することで,各単語や画素への注意を間接的に制御することで,セマンティックマスクに忠実な画像を生成するマスク注意誘導を提案する。
masked-attention guidanceは、事前訓練されたオフザシェルフ拡散モデル(例えば、安定拡散)に容易に統合でき、テキスト誘導画像編集のタスクに適用できる。
実験により,本手法は質的および定量的にベースラインよりも高精度な空間制御が可能となった。
関連論文リスト
- Scribble-Guided Diffusion for Training-free Text-to-Image Generation [17.930032337081673]
Scribble-Guided Diffusion (ScribbleDiff)は、単純なユーザが提供するスクリブルを視覚的プロンプトとして利用して画像生成を誘導する、トレーニング不要のアプローチである。
モーメントアライメントとスクリブル伝搬を導入し、生成した画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
論文 参考訳(メタデータ) (2024-09-12T13:13:07Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Directed Diffusion: Direct Control of Object Placement through Attention
Guidance [15.275386705641266]
テキスト誘導拡散モデルは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。
これらのモデルはしばしば、特定の位置関係における文字のようないくつかの重要なオブジェクトを含むシーンを構成するのに苦労する。
この作業では、必要な方向性を提供するために、特に簡単なアプローチを取ります。
論文 参考訳(メタデータ) (2023-02-25T20:48:15Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。