論文の概要: Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2304.03869v1
- Date: Fri, 7 Apr 2023 23:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:21:49.127445
- Title: Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis
- Title(参考訳): 高忠実テキスト・画像合成のための拡散モデルの空間的時間的注意
- Authors: Qiucheng Wu, Yujian Liu, Handong Zhao, Trung Bui, Zhe Lin, Yang Zhang,
Shiyu Chang
- Abstract要約: 拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 59.10787643285506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based models have achieved state-of-the-art performance on
text-to-image synthesis tasks. However, one critical limitation of these models
is the low fidelity of generated images with respect to the text description,
such as missing objects, mismatched attributes, and mislocated objects. One key
reason for such inconsistencies is the inaccurate cross-attention to text in
both the spatial dimension, which controls at what pixel region an object
should appear, and the temporal dimension, which controls how different levels
of details are added through the denoising steps. In this paper, we propose a
new text-to-image algorithm that adds explicit control over spatial-temporal
cross-attention in diffusion models. We first utilize a layout predictor to
predict the pixel regions for objects mentioned in the text. We then impose
spatial attention control by combining the attention over the entire text
description and that over the local description of the particular object in the
corresponding pixel region of that object. The temporal attention control is
further added by allowing the combination weights to change at each denoising
step, and the combination weights are optimized to ensure high fidelity between
the image and the text. Experiments show that our method generates images with
higher fidelity compared to diffusion-model-based baselines without fine-tuning
the diffusion model. Our code is publicly available at
https://github.com/UCSB-NLP-Chang/Diffusion-SpaceTime-Attn.
- Abstract(参考訳): 拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
しかし、これらのモデルの1つの重要な制限は、欠落したオブジェクト、不一致属性、不一致したオブジェクトなど、テキスト記述に関して生成された画像の忠実度が低いことである。
このような不整合の1つの主要な理由は、オブジェクトがどのピクセル領域に現れるべきかを制御する空間次元と、異なる詳細レベルがデノナイジングステップを通じてどのように追加されるかを制御する時間次元の両方において、テキストに対する不正確な相互アテンションである。
本稿では,拡散モデルにおける空間-時間間相互接続を明示的に制御する新しいテキスト-画像間アルゴリズムを提案する。
まず、レイアウト予測器を用いてテキストに言及されたオブジェクトの画素領域を予測する。
次に、テキスト記述全体に対する注意と、そのオブジェクトの対応するピクセル領域における特定のオブジェクトの局所的な説明を組み合わせることで、空間的注意制御を行う。
さらに、各装飾ステップで組み合わせ重みを変更できるようにし、画像とテキストとの忠実度の高い組合せ重みを最適化することにより、時間的注意制御をさらに追加する。
実験により,拡散モデルを微調整することなく,拡散モデルベースラインよりも忠実度の高い画像を生成することがわかった。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/Diffusion-SpaceTime-Attnで公開されています。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - AID: Attention Interpolation of Text-to-Image Diffusion [64.87754163416241]
AID(Attention Interpolation via Diffusion)という,トレーニング不要な手法を導入する。
AIDは補間された注意を自己注意と融合させ、忠実性を高める。
また,条件に依存した生成過程として,拡散による条件誘導注意補間(AID)も提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:05Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。