論文の概要: Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance
- arxiv url: http://arxiv.org/abs/2403.17377v1
- Date: Tue, 26 Mar 2024 04:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:45:50.107976
- Title: Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance
- Title(参考訳): 摂動誘導による自己回帰拡散サンプリング
- Authors: Donghoon Ahn, Hyoungwon Cho, Jaewon Min, Wooseok Jang, Jungwoo Kim, SeonHwa Kim, Hyun Hee Park, Kyong Hwan Jin, Seungryong Kim,
- Abstract要約: Perturbed-Attention Guidance (PAG)は、無条件と条件の両方で拡散サンプルの品質を向上させる。
ADMとStable Diffusionの両方において、PAGは驚くほど、条件付きおよび条件なしのシナリオにおけるサンプル品質を改善します。
- 参考スコア(独自算出の注目度): 28.354284737867136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated that diffusion models are capable of generating high-quality samples, but their quality heavily depends on sampling guidance techniques, such as classifier guidance (CG) and classifier-free guidance (CFG). These techniques are often not applicable in unconditional generation or in various downstream tasks such as image restoration. In this paper, we propose a novel sampling guidance, called Perturbed-Attention Guidance (PAG), which improves diffusion sample quality across both unconditional and conditional settings, achieving this without requiring additional training or the integration of external modules. PAG is designed to progressively enhance the structure of samples throughout the denoising process. It involves generating intermediate samples with degraded structure by substituting selected self-attention maps in diffusion U-Net with an identity matrix, by considering the self-attention mechanisms' ability to capture structural information, and guiding the denoising process away from these degraded samples. In both ADM and Stable Diffusion, PAG surprisingly improves sample quality in conditional and even unconditional scenarios. Moreover, PAG significantly improves the baseline performance in various downstream tasks where existing guidances such as CG or CFG cannot be fully utilized, including ControlNet with empty prompts and image restoration such as inpainting and deblurring.
- Abstract(参考訳): 近年の研究では、拡散モデルが高品質なサンプルを生成可能であることが示されているが、その品質は、分類器ガイダンス(CG)や分類器フリーガイダンス(CFG)といったサンプリングガイダンス技術に大きく依存している。
これらの手法は、無条件生成や画像復元のような様々な下流タスクには適用されないことが多い。
本稿では,無条件および条件条件の両方で拡散サンプルの品質を向上し,追加のトレーニングや外部モジュールの統合を必要とせず,新たなサンプリングガイダンスであるPerturbed-Attention Guidance(PAG)を提案する。
PAGは、denoisingプロセスを通してサンプルの構造を徐々に強化するよう設計されている。
分散U-Netで選択された自己アテンションマップをアイデンティティ行列に置換し、自己アテンション機構が構造情報をキャプチャする能力を考慮し、これらの劣化したサンプルから退化過程を導くことによって、劣化した構造を持つ中間サンプルを生成する。
ADMとStable Diffusionの両方において、PAGは驚くほど、条件付きおよび条件なしのシナリオにおけるサンプル品質を改善します。
さらに、CGやCFGのような既存のガイダンスを十分に活用できないダウンストリームタスクにおいて、PAGは、空のプロンプトを持つControlNetや、塗装やデブロアリングなどのイメージ復元など、ベースライン性能を著しく向上させる。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Compress Guidance in Conditional Diffusion Sampling [16.671575782090045]
この研究は問題を識別し、定量化し、多くのタイミングでガイダンスを減らしたり除いたりすることでこの問題を軽減できることを示した。
画像の質と多様性を著しく向上させながら、必要なガイダンスタイムステップを40%近く削減する。
論文 参考訳(メタデータ) (2024-08-20T21:02:54Z) - Diffusion Model Driven Test-Time Image Adaptation for Robust Skin Lesion Classification [24.08402880603475]
テストデータ上でのモデルの精度を高めるためのテスト時間画像適応手法を提案する。
拡散モデルを用いて、対象の試験画像をソース領域に投影して修正する。
私たちの手法は、さまざまな汚職、アーキテクチャ、データレシエーションにおいて、堅牢性をより堅牢にします。
論文 参考訳(メタデータ) (2024-05-18T13:28:51Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Mitigating Exposure Bias in Discriminator Guided Diffusion Models [4.5349436061325425]
本稿では,識別器誘導とエプシロンスケーリングを組み合わせたSEDM-G++を提案する。
提案手法は,非条件CIFAR-10データセット上でFIDスコア1.73を達成し,現状よりも優れている。
論文 参考訳(メタデータ) (2023-11-18T20:49:50Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。