論文の概要: Improving Sample Quality of Diffusion Model Using Self-Attention
Guidance
- arxiv url: http://arxiv.org/abs/2210.00939v1
- Date: Mon, 3 Oct 2022 13:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:20:34.629261
- Title: Improving Sample Quality of Diffusion Model Using Self-Attention
Guidance
- Title(参考訳): 自己注意誘導による拡散モデルのサンプル品質改善
- Authors: Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim
- Abstract要約: まず,ブラックボックス拡散モデルにおける自己注意操作について検討し,仮説を構築した。
その結果,アテンションマップは生成画像の品質と密接に関連していることがわかった。
我々は,既存の事前学習拡散モデルから高忠実度の画像を生成することができる中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。
- 参考スコア(独自算出の注目度): 27.782150368174413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following generative adversarial networks (GANs), a de facto standard model
for image generation, denoising diffusion models (DDMs) have been actively
researched and attracted strong attention due to their capability to generate
images with high quality and diversity. However, the way the internal
self-attention mechanism works inside the UNet of DDMs is under-explored. To
unveil them, in this paper, we first investigate the self-attention operations
within the black-boxed diffusion models and build hypotheses. Next, we verify
the hypotheses about the self-attention map by conducting frequency analysis
and testing the relationships with the generated objects. In consequence, we
find out that the attention map is closely related to the quality of generated
images. On the other hand, diffusion guidance methods based on additional
information such as labels are proposed to improve the quality of generated
images. Inspired by these methods, we present label-free guidance based on the
intermediate self-attention map that can guide existing pretrained diffusion
models to generate images with higher fidelity. In addition to the enhanced
sample quality when used alone, we show that the results are further improved
by combining our method with classifier guidance on ImageNet 128x128.
- Abstract(参考訳): 画像生成のためのデファクト標準モデルであるgans(generative adversarial network)に続いて、ddm(denoising diffusion models)が積極的に研究され、高品質で多様性のある画像を生成する能力から強い注目を集めている。
しかし、内部の自己保持機構は、DDMのUNet内で機能する。
そこで本論文では,まず,ブラックボックス拡散モデルにおける自己着脱操作について検討し,仮説を構築する。
次に, 周波数解析を行い, 生成した物体との関係を検証し, 自己愛マップに関する仮説を検証する。
その結果,注目マップが生成画像の品質と密接に関連していることが判明した。
一方,ラベルなどの付加情報に基づく拡散誘導手法が提案されており,画像の品質が向上している。
これらの手法に着想を得て,既存の事前学習拡散モデルを誘導し,忠実度の高い画像を生成する中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。
単独で使用する場合のサンプル品質の向上に加えて,ImageNet 128x128の分類器ガイダンスと組み合わせることで,結果がさらに改善されることを示す。
関連論文リスト
- Unlocking the Capabilities of Masked Generative Models for Image Synthesis via Self-Guidance [25.41734642338575]
Masked Generative Model (MGM)は、非常に効率的なサンプリングステップを提供しながら、印象的な生成能力を示している。
本稿では,より優れた生成品質を実現する自己誘導サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T01:48:05Z) - Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。
CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。
ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文 参考訳(メタデータ) (2024-07-09T21:58:26Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based
Single Image Super-resolution [88.13972071356422]
本稿では,DifAugGAN として知られる GAN ベースの画像超解像法(SR) のための拡散型データ拡張手法を提案する。
それは、訓練中の判別器の校正を改善するために、生成拡散モデルに拡散過程を適用することを含む。
我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。
論文 参考訳(メタデータ) (2023-11-30T12:37:53Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。