Fugu-MT 論文翻訳(概要): Improving Sample Quality of Diffusion Model Using Self-Attention Guidance

論文の概要: Improving Sample Quality of Diffusion Model Using Self-Attention Guidance

arxiv url: http://arxiv.org/abs/2210.00939v1
Date: Mon, 3 Oct 2022 13:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 13:20:34.629261
Title: Improving Sample Quality of Diffusion Model Using Self-Attention Guidance
Title（参考訳）: 自己注意誘導による拡散モデルのサンプル品質改善
Authors: Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim
Abstract要約: まず,ブラックボックス拡散モデルにおける自己注意操作について検討し,仮説を構築した。その結果,アテンションマップは生成画像の品質と密接に関連していることがわかった。我々は,既存の事前学習拡散モデルから高忠実度の画像を生成することができる中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。
参考スコア（独自算出の注目度）: 27.782150368174413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Following generative adversarial networks (GANs), a de facto standard model for image generation, denoising diffusion models (DDMs) have been actively researched and attracted strong attention due to their capability to generate images with high quality and diversity. However, the way the internal self-attention mechanism works inside the UNet of DDMs is under-explored. To unveil them, in this paper, we first investigate the self-attention operations within the black-boxed diffusion models and build hypotheses. Next, we verify the hypotheses about the self-attention map by conducting frequency analysis and testing the relationships with the generated objects. In consequence, we find out that the attention map is closely related to the quality of generated images. On the other hand, diffusion guidance methods based on additional information such as labels are proposed to improve the quality of generated images. Inspired by these methods, we present label-free guidance based on the intermediate self-attention map that can guide existing pretrained diffusion models to generate images with higher fidelity. In addition to the enhanced sample quality when used alone, we show that the results are further improved by combining our method with classifier guidance on ImageNet 128x128.
Abstract（参考訳）: 画像生成のためのデファクト標準モデルであるgans(generative adversarial network)に続いて、ddm(denoising diffusion models)が積極的に研究され、高品質で多様性のある画像を生成する能力から強い注目を集めている。しかし、内部の自己保持機構は、DDMのUNet内で機能する。そこで本論文では,まず,ブラックボックス拡散モデルにおける自己着脱操作について検討し,仮説を構築する。次に, 周波数解析を行い, 生成した物体との関係を検証し, 自己愛マップに関する仮説を検証する。その結果,注目マップが生成画像の品質と密接に関連していることが判明した。一方,ラベルなどの付加情報に基づく拡散誘導手法が提案されており,画像の品質が向上している。これらの手法に着想を得て,既存の事前学習拡散モデルを誘導し,忠実度の高い画像を生成する中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。単独で使用する場合のサンプル品質の向上に加えて,ImageNet 128x128の分類器ガイダンスと組み合わせることで,結果がさらに改善されることを示す。

関連論文リスト

How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文参考訳（メタデータ） (2025-06-10T02:09:48Z)
Latent Guidance in Diffusion Models for Perceptual Evaluations [33.915594693285556]
潜在拡散モデルは、データ多様体内の知覚的に一貫した局所領域を暗黙的に示す。本稿では,事前学習した潜伏拡散モデルと知覚品質特徴を利用するアルゴリズムである知覚マニフォールドガイダンス(PMG)を提案する。提案手法は,NR-IQAタスクの拡散モデルの優れた一般化能力を実証し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-31T00:41:59Z)
SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation [0.6554326244334868]
本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。提案手法では,前景のセマンティクスを保存し,背景の多様性を充実させ,ラベルの一貫性を確保するために,塩分濃度誘導混合と微調整拡散モデルを用いている。
論文参考訳（メタデータ） (2025-05-17T03:51:18Z)
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文参考訳（メタデータ） (2024-12-10T18:59:58Z)
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2024-12-03T18:56:32Z)
Unlocking the Capabilities of Masked Generative Models for Image Synthesis via Self-Guidance [25.41734642338575]
Masked Generative Model (MGM)は、非常に効率的なサンプリングステップを提供しながら、印象的な生成能力を示している。本稿では,より優れた生成品質を実現する自己誘導サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-10-17T01:48:05Z)
Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。 CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文参考訳（メタデータ） (2024-07-09T21:58:26Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based Single Image Super-resolution [88.13972071356422]
本稿では,DifAugGAN として知られる GAN ベースの画像超解像法(SR) のための拡散型データ拡張手法を提案する。それは、訓練中の判別器の校正を改善するために、生成拡散モデルに拡散過程を適用することを含む。我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。
論文参考訳（メタデータ） (2023-11-30T12:37:53Z)
Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文参考訳（メタデータ） (2023-11-28T02:08:06Z)
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。 Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。 GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文参考訳（メタデータ） (2023-05-29T04:22:57Z)
Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文参考訳（メタデータ） (2023-02-28T07:43:00Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。