論文の概要: Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.13921v1
- Date: Tue, 23 May 2023 10:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:59:02.959042
- Title: Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models
- Title(参考訳): 拡散モデルの注意マップ制御による合成テキスト・画像合成
- Authors: Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin
- Abstract要約: 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
これらのモデルは、構成能力に制限があるため、生成した画像とテキスト記述とを意味的に整合させることができない。
本稿では,これら3つの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御戦略を提案する。
- 参考スコア(独自算出の注目度): 7.248167944149494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image (T2I) diffusion models show outstanding performance in
generating high-quality images conditioned on textual prompts. However, these
models fail to semantically align the generated images with the text
descriptions due to their limited compositional capabilities, leading to
attribute leakage, entity leakage, and missing entities. In this paper, we
propose a novel attention mask control strategy based on predicted object boxes
to address these three issues. In particular, we first train a BoxNet to
predict a box for each entity that possesses the attribute specified in the
prompt. Then, depending on the predicted boxes, unique mask control is applied
to the cross- and self-attention maps. Our approach produces a more
semantically accurate synthesis by constraining the attention regions of each
token in the prompt to the image. In addition, the proposed method is
straightforward and effective, and can be readily integrated into existing
cross-attention-diffusion-based T2I generators. We compare our approach to
competing methods and demonstrate that it not only faithfully conveys the
semantics of the original text to the generated content, but also achieves high
availability as a ready-to-use plugin.
- Abstract(参考訳): 最近のtext-to-image(t2i)拡散モデルは、テキストプロンプトに基づく高品質画像の生成において優れた性能を示している。
しかし、これらのモデルは合成能力が限られているため、生成した画像とテキスト記述を意味的に一致させることに失敗し、属性の漏洩、エンティティの漏洩、エンティティの欠如を招いた。
本稿では,これら3つの課題に対処するために,予測対象ボックスに基づく注意マスク制御手法を提案する。
特に、プロンプトで指定された属性を持つ各エンティティのボックスを予測するために、まずboxnetをトレーニングします。
そして、予測ボックスに応じて、クロスマップとセルフアテンションマップに独自のマスク制御を適用する。
提案手法は,画像へのプロンプト中の各トークンの注意領域を制約することにより,より意味論的に合成する。
さらに,提案手法は単純かつ効果的であり,既存のクロスアテンション拡散型T2Iジェネレータに容易に組み込むことができる。
提案手法を競合する手法と比較し,オリジナルテキストのセマンティクスを生成コンテンツに忠実に伝達するだけでなく,利用できるプラグインとして高可用性を実現することを示す。
関連論文リスト
- Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models [1.6450779686641077]
OVAM(Open-Vocabulary Attention Maps)は,テキスト・画像拡散モデルのためのトレーニング不要な手法である。
既存の安定拡散拡張の中でこれらのトークンを評価する。
論文 参考訳(メタデータ) (2024-03-21T10:56:12Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。