論文の概要: Towards Faster Training of Diffusion Models: An Inspiration of A Consistency Phenomenon
- arxiv url: http://arxiv.org/abs/2404.07946v1
- Date: Thu, 14 Mar 2024 13:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-14 13:03:36.108072
- Title: Towards Faster Training of Diffusion Models: An Inspiration of A Consistency Phenomenon
- Title(参考訳): 拡散モデルの高速学習に向けて--一貫性現象の吸気-
- Authors: Tianshuo Xu, Peng Mi, Ruilin Wang, Yingcong Chen,
- Abstract要約: 近年,拡散モデル (DM) が注目されている。
DMの訓練を加速する2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 16.416356358224842
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models (DMs) are a powerful generative framework that have attracted significant attention in recent years. However, the high computational cost of training DMs limits their practical applications. In this paper, we start with a consistency phenomenon of DMs: we observe that DMs with different initializations or even different architectures can produce very similar outputs given the same noise inputs, which is rare in other generative models. We attribute this phenomenon to two factors: (1) the learning difficulty of DMs is lower when the noise-prediction diffusion model approaches the upper bound of the timestep (the input becomes pure noise), where the structural information of the output is usually generated; and (2) the loss landscape of DMs is highly smooth, which implies that the model tends to converge to similar local minima and exhibit similar behavior patterns. This finding not only reveals the stability of DMs, but also inspires us to devise two strategies to accelerate the training of DMs. First, we propose a curriculum learning based timestep schedule, which leverages the noise rate as an explicit indicator of the learning difficulty and gradually reduces the training frequency of easier timesteps, thus improving the training efficiency. Second, we propose a momentum decay strategy, which reduces the momentum coefficient during the optimization process, as the large momentum may hinder the convergence speed and cause oscillations due to the smoothness of the loss landscape. We demonstrate the effectiveness of our proposed strategies on various models and show that they can significantly reduce the training time and improve the quality of the generated images.
- Abstract(参考訳): 近年,拡散モデル (DM) が注目されている。
しかし、DMの訓練には高い計算コストがかかるため、実用性は制限される。
本稿では、DMの整合性現象から始める: 異なる初期化や異なるアーキテクチャを持つDMは、他の生成モデルでは珍しく、同じノイズ入力に対して非常によく似た出力を生成できる。
この現象は,(1)ノイズ予測拡散モデルが時間ステップの上界(入力が純粋ノイズとなる)に近づくと,DMの学習困難度が低下する,(2)DMの構造情報が通常生成される,という2つの要因に起因している。
この発見はDMの安定性を明らかにするだけでなく、DMの訓練を加速する2つの戦略を考案するきっかけにもなります。
まず,学習難易度を明示的な指標として利用し,学習難易度を段階的に低減し,学習効率を向上するカリキュラム学習ベースのタイムステップスケジュールを提案する。
第2に,最大運動量が収束速度を妨げ,損失景観の滑らかさによる振動を引き起こすため,最適化過程における運動量係数を減少させる運動量減衰戦略を提案する。
提案手法の有効性を様々なモデルで示すとともに,トレーニング時間を大幅に短縮し,生成した画像の品質を向上させることができることを示す。
関連論文リスト
- Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture [69.58440626023541]
拡散モデル (DM) は様々な領域で異常な生成能力を示す。
DMを加速する最も一般的な方法は、生成中のデノナイジングステップの数を減少させることである。
本稿では,大規模な事前学習型DMを高速なアーキテクチャに転送する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:12:22Z) - Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks [26.387044804861937]
拡散モデル(DM)の微調整は重要な進歩であり、トレーニングコストを大幅に削減し、パーソナライズされたAIアプリケーションを可能にする。
トレーニングプロセス中、画像の忠実度は最初改善され、ノイズパターンの出現によって予期せぬ劣化が生じるが、その後、重度のオーバーフィッティングで回復する。
生成したノイズパターンを汚損段階と表現し, 実験結果から, オブジェクト駆動および主観駆動の両方で生成した画像の忠実度, 品質, 多様性を著しく低下させることが実証された。
論文 参考訳(メタデータ) (2024-05-30T10:47:48Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Unsupervised Temporal Action Localization via Self-paced Incremental
Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。
本稿では、画像復元(IR)の観点からDDMの解釈を確立する。
本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。
われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文 参考訳(メタデータ) (2023-02-20T00:53:33Z) - Post-training Quantization on Diffusion Models [14.167428759401703]
拡散(スコアベース)生成モデルは近年、現実的で多様なデータを生成する上で大きな成果を上げている。
これらの手法は、データをノイズに変換する前方拡散プロセスと、ノイズからデータをサンプリングする後方デノナイジングプロセスを定義する。
残念なことに、長い反復的雑音推定のため、現在のデノナイジング拡散モデルの生成過程は明らかに遅い。
論文 参考訳(メタデータ) (2022-11-28T19:33:39Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。