論文の概要: Improved Noise Schedule for Diffusion Training
- arxiv url: http://arxiv.org/abs/2407.03297v2
- Date: Wed, 27 Nov 2024 15:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:26.434490
- Title: Improved Noise Schedule for Diffusion Training
- Title(参考訳): 拡散訓練における騒音スケジュールの改善
- Authors: Tiankai Hang, Shuyang Gu, Xin Geng, Baining Guo,
- Abstract要約: 本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 51.849746576387375
- License:
- Abstract: Diffusion models have emerged as the de facto choice for generating high-quality visual signals across various domains. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence and improve model performance. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio ($\log \text{SNR}$), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. This strategic sampling allows the model to focus on the critical transition point between signal dominance and noise dominance, potentially leading to more robust and accurate predictions.We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule.Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets. Our findings contribute to the ongoing efforts to optimize diffusion models, potentially paving the way for more efficient and effective training paradigms in the field of generative AI.
- Abstract(参考訳): 拡散モデルは、様々な領域にわたる高品質な視覚信号を生成するための事実上の選択として現れてきた。
しかし、様々なレベルのノイズを予測するために単一のモデルをトレーニングすることは、多くの反復を必要とし、かなりの計算コストを発生させる、重大な課題をもたらす。
損失重み付け戦略設計やアーキテクチャの洗練といった様々なアプローチが、収束の迅速化とモデル性能の向上のために導入されている。
本研究では,拡散モデルの訓練を改善するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々の重要な洞察は、理論上は修正ノイズスケジュールと等価であるSignal-to-Noise比(\log \text{SNR}$)の対数サンプリングの重要性は、サンプル周波数を$\log \text{SNR}=0$で増加させる際に特に有益であるということである。
この戦略的サンプリングにより,信号優位性とノイズ優位性の間の重要な遷移点に焦点を合わせ,より堅牢で正確な予測を行うことが可能となり,標準コサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示すとともに,ImageNetベンチマーク上でのノイズスケジュール設計の利点を強調し,設計スケジュールが常に異なる予測目標の恩恵を受けることを示す。
我々の発見は、拡散モデルを最適化するための継続的な取り組みに寄与し、生成AI分野におけるより効率的で効果的なトレーニングパラダイムの道を開く可能性がある。
関連論文リスト
- Constant Rate Schedule: Constant-Rate Distributional Change for Efficient Training and Sampling in Diffusion Models [16.863038973001483]
拡散過程を通して拡散したデータの確率分布の変化率を一定に保証するノイズスケジュールを提案する。
ノイズスケジュールの関数形式は自動的に決定され、各データセットや拡散モデルのタイプに合わせて調整される。
論文 参考訳(メタデータ) (2024-11-19T03:02:39Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - On the Importance of Noise Scheduling for Diffusion Models [8.360383061862844]
拡散生成モデルにおけるノイズスケジューリング手法の効果について検討する。
この簡単なレシピは、ImageNet上の高解像度画像に対して、最先端のピクセルベースの拡散モデルを生成する。
論文 参考訳(メタデータ) (2023-01-26T07:37:22Z) - Self-Adapting Noise-Contrastive Estimation for Energy-Based Models [0.0]
ノイズコントラスト推定(NCE)を用いたトレーニングエネルギーベースモデルは理論的には実現可能であるが、実際は困難である。
従来の研究は、別個の生成モデルとしてノイズ分布をモデル化し、EBMでこのノイズモデルを同時に訓練してきた。
本論文では,EMMの静的なインスタンスを学習軌道に沿って雑音分布として利用する自己適応型NCEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-03T15:17:43Z) - Perception Prioritized Training of Diffusion Models [34.674477039333475]
ある種のノイズレベルで破損したデータを復元することは、モデルがリッチな視覚概念を学習するための適切な前提を提供することを示す。
目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。
論文 参考訳(メタデータ) (2022-04-01T06:22:23Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。