論文の概要: Training-Free Structured Diffusion Guidance for Compositional
Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2212.05032v1
- Date: Fri, 9 Dec 2022 18:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:09:18.684134
- Title: Training-Free Structured Diffusion Guidance for Compositional
Text-to-Image Synthesis
- Title(参考訳): 合成テキスト・画像合成のための自由構造拡散誘導
- Authors: Weixi Feng, Xuehai He, Tsu-Jui Fu, Varun Jampani, Arjun Akula,
Pradyumna Narayana, Sugato Basu, Xin Eric Wang, William Yang Wang
- Abstract要約: 大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。
我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
- 参考スコア(独自算出の注目度): 78.28620571530706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale diffusion models have achieved state-of-the-art results on
text-to-image synthesis (T2I) tasks. Despite their ability to generate
high-quality yet creative images, we observe that attribution-binding and
compositional capabilities are still considered major challenging issues,
especially when involving multiple objects. In this work, we improve the
compositional skills of T2I models, specifically more accurate attribute
binding and better image compositions. To do this, we incorporate linguistic
structures with the diffusion guidance process based on the controllable
properties of manipulating cross-attention layers in diffusion-based T2I
models. We observe that keys and values in cross-attention layers have strong
semantic meanings associated with object layouts and content. Therefore, we can
better preserve the compositional semantics in the generated image by
manipulating the cross-attention representations based on linguistic insights.
Built upon Stable Diffusion, a SOTA T2I model, our structured cross-attention
design is efficient that requires no additional training samples. We achieve
better compositional skills in qualitative and quantitative results, leading to
a 5-8% advantage in head-to-head user comparison studies. Lastly, we conduct an
in-depth analysis to reveal potential causes of incorrect image compositions
and justify the properties of cross-attention layers in the generation process.
- Abstract(参考訳): 大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。
高品質で創造的な画像を生成する能力があるにもかかわらず、属性結合と合成能力は依然として大きな問題であり、特に複数のオブジェクトを巻き込む場合である。
本稿では,t2iモデルの合成スキル,特に属性バインディングの精度向上と画像合成の改善について述べる。
これを実現するために,拡散型T2Iモデルにおいて,言語構造と拡散誘導処理を相互注意層を操作可能な特性に基づいて組み込む。
我々は、クロスアテンション層におけるキーと値が、オブジェクトのレイアウトやコンテンツに関連する強力な意味を持っていることを観察する。
したがって、言語的洞察に基づいてクロス・アテンション表現を操作することにより、生成画像の合成意味論を良好に保存することができる。
sota t2iモデルであるstable diffusionをベースに構築されており、構造化クロスアテンション設計は効率的であり、追加のトレーニングサンプルを必要としない。
質的,定量的な結果において,より優れた構成スキルを達成し,ユーザ比較研究において5~8%の優位性をもたらす。
最後に,不正確な画像合成の潜在的な原因を明らかにするために詳細な解析を行い,生成過程における相互注意層の特性を正当化する。
関連論文リスト
- Progressive Compositionality In Text-to-Image Generative Models [33.18510121342558]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文 参考訳(メタデータ) (2024-10-22T05:59:29Z) - CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization [27.114395240088562]
理想的な主観的表現は、相互差分的な視点、すなわち、主観的本質的属性と無関係な属性とを対照的な学習を通して分離することで達成できると主張する。
具体的には、マルチレベルコントラスト学習パラダイムとMFI(Multimodal Feature Injection)を含む新しいフレームワークであるCustomContrastを提案する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
論文 参考訳(メタデータ) (2024-09-09T13:39:47Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。