論文の概要: Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance
- arxiv url: http://arxiv.org/abs/2210.00939v6
- Date: Thu, 24 Aug 2023 16:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 18:53:28.164680
- Title: Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance
- Title(参考訳): 自己注意誘導による拡散モデルのサンプル品質改善
- Authors: Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim
- Abstract要約: 自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。
SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。
以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 36.42984435784378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising diffusion models (DDMs) have attracted attention for their
exceptional generation quality and diversity. This success is largely
attributed to the use of class- or text-conditional diffusion guidance methods,
such as classifier and classifier-free guidance. In this paper, we present a
more comprehensive perspective that goes beyond the traditional guidance
methods. From this generalized perspective, we introduce novel condition- and
training-free strategies to enhance the quality of generated images. As a
simple solution, blur guidance improves the suitability of intermediate samples
for their fine-scale information and structures, enabling diffusion models to
generate higher quality samples with a moderate guidance scale. Improving upon
this, Self-Attention Guidance (SAG) uses the intermediate self-attention maps
of diffusion models to enhance their stability and efficacy. Specifically, SAG
adversarially blurs only the regions that diffusion models attend to at each
iteration and guides them accordingly. Our experimental results show that our
SAG improves the performance of various diffusion models, including ADM, IDDPM,
Stable Diffusion, and DiT. Moreover, combining SAG with conventional guidance
methods leads to further improvement.
- Abstract(参考訳): 拡散モデル(DDM)はその例外的な世代品質と多様性に注目されている。
この成功は主に、分類器や分類器フリーガイダンスのような、クラスまたはテキスト条件拡散誘導手法の使用によるものである。
本稿では,従来のガイダンス手法を超越した,より包括的な視点を提案する。
この一般的な観点から, 生成画像の品質向上のために, 新たな条件およびトレーニングフリー戦略を導入する。
簡単な解法として、ブラーガイダンスは、その微細な情報と構造に対する中間サンプルの適合性を向上し、拡散モデルにより適度なガイダンススケールで高品質なサンプルを生成することができる。
これを改善するために、自己注意誘導(SAG)は拡散モデルの中間的な自己注意マップを用いて安定性と有効性を高める。
具体的には、SAGは各イテレーションで拡散モデルが関与する領域のみを逆向きに曖昧にし、それに従って誘導する。
実験の結果,sagはadm,iddpm,stable diffusion,ditなど様々な拡散モデルの性能を向上させることがわかった。
さらに,従来の指導手法とSAGを組み合わせることで,さらなる改善が期待できる。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based
Single Image Super-resolution [88.13972071356422]
本稿では,DifAugGAN として知られる GAN ベースの画像超解像法(SR) のための拡散型データ拡張手法を提案する。
それは、訓練中の判別器の校正を改善するために、生成拡散モデルに拡散過程を適用することを含む。
我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。
論文 参考訳(メタデータ) (2023-11-30T12:37:53Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Towards Enhanced Controllability of Diffusion Models [22.84630454597448]
我々は,2つの潜伏符号に条件付き拡散モデル,空間的内容マスクと平らなスタイルの埋め込みを訓練する。
既存の手法と比較して制御性が向上し, 画像操作, 参照ベース画像翻訳, スタイル転送に拡散モデルが有効であることを示す。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。