論文の概要: Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.13307v2
- Date: Tue, 2 Jan 2024 02:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:23:20.468578
- Title: Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models
- Title(参考訳): すべてのステップが等しくない:進行拡散モデルによる効率的な生成
- Authors: Wenhao Li, Xiu Su, Shan You, Tao Huang, Fei Wang, Chen Qian, Chang Xu
- Abstract要約: ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
- 参考スコア(独自算出の注目度): 62.155612146799314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable efficacy in various generative
tasks with the predictive prowess of denoising model. Currently, these models
employ a uniform denoising approach across all timesteps. However, the inherent
variations in noisy latents at each timestep lead to conflicts during training,
constraining the potential of diffusion models. To address this challenge, we
propose a novel two-stage training strategy termed Step-Adaptive Training. In
the initial stage, a base denoising model is trained to encompass all
timesteps. Subsequently, we partition the timesteps into distinct groups,
fine-tuning the model within each group to achieve specialized denoising
capabilities. Recognizing that the difficulties of predicting noise at
different timesteps vary, we introduce a diverse model size requirement. We
dynamically adjust the model size for each timestep by estimating task
difficulty based on its signal-to-noise ratio before fine-tuning. This
adjustment is facilitated by a proxy-based structural importance assessment
mechanism, enabling precise and efficient pruning of the base denoising model.
Our experiments validate the effectiveness of the proposed training strategy,
demonstrating an improvement in the FID score on CIFAR10 by over 0.3 while
utilizing only 80\% of the computational resources. This innovative approach
not only enhances model performance but also significantly reduces
computational costs, opening new avenues for the development and application of
diffusion models.
- Abstract(参考訳): 拡散モデルは様々な生成的タスクにおいて、デノイジンモデルによる予測能力と共に顕著な効果を示す。
現在、これらのモデルは全ての時間ステップで一様デノイジングアプローチを採用している。
しかし、各段階における雑音性潜伏剤の固有の変動は、訓練中に衝突を引き起こし、拡散モデルのポテンシャルを制約する。
この課題に対処するために,ステップ適応型トレーニングと呼ばれる新しい2段階トレーニング戦略を提案する。
初期段階では、ベース・デノイジング・モデルがすべてのタイムステップを包含するように訓練される。
その後、時間ステップを別々のグループに分割し、各グループ内でモデルを微調整し、特殊化能力を達成する。
異なる時間ステップでノイズを予測することの難しさを認識し,多様なモデルサイズ要件を導入する。
微調整前の信号対雑音比に基づいてタスク難易度を推定することにより,各時間ステップのモデルサイズを動的に調整する。
この調整は、プロキシベースの構造重要度評価機構によって促進され、ベースデノイジングモデルの正確かつ効率的なプルーニングを可能にする。
提案手法の有効性を検証し,CIFAR10のFIDスコアを0.3以上向上させるとともに,計算資源の80%しか利用していないことを実証した。
この革新的なアプローチはモデルの性能を向上させるだけでなく、計算コストを大幅に削減し、拡散モデルの開発と応用のための新しい道を開く。
関連論文リスト
- SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。
両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。
第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Decouple-Then-Merge: Towards Better Training for Diffusion Models [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
この研究はDeouple-then-Merge(DeMe)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - A Recycling Training Strategy for Medical Image Segmentation with
Diffusion Denoising Models [8.649603931882227]
拡散モデルのデノイングは、画像上に条件付きセグメンテーションマスクを生成することにより、画像セグメンテーションに応用されている。
本研究では, トレーニング戦略の改善に焦点をあて, 新たなリサイクル手法を提案する。
提案手法は,同一のネットワークアーキテクチャと計算予算とを公正に比較し,非拡散型教師付きトレーニングによるリサイクルベース拡散モデルの性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-30T23:03:49Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。