論文の概要: Improved Noise Schedule for Diffusion Training
- arxiv url: http://arxiv.org/abs/2407.03297v1
- Date: Wed, 3 Jul 2024 17:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:05:47.122093
- Title: Improved Noise Schedule for Diffusion Training
- Title(参考訳): 拡散訓練における騒音スケジュールの改善
- Authors: Tiankai Hang, Shuyang Gu,
- Abstract要約: 拡散モデルは視覚信号を生成するデファクト選択として現れている。
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 7.201977155496932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as the de facto choice for generating visual signals. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio (logSNR), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule. Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets.
- Abstract(参考訳): 拡散モデルは視覚信号を生成するデファクト選択として現れている。
しかし、様々なレベルのノイズを予測するために単一のモデルをトレーニングすることは、多くの反復を必要とし、かなりの計算コストを発生させる、重大な課題をもたらす。
損失重み付け戦略設計やアーキテクチャの洗練といった様々なアプローチが、収束を早めるために導入されている。
本研究では,拡散モデルの訓練を改善するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々の重要な洞察は、信号対雑音比(logSNR)の対数サンプリングの重要性は、理論上は修正ノイズスケジュールと等価であり、サンプル周波数を$\log \text{SNR}=0$で増加させる場合のトレーニング効率に特に有益であるということである。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
さらに、ImageNetベンチマークにおけるノイズスケジュール設計の利点を強調し、設計したスケジュールは、常に異なる予測ターゲットの恩恵を受けることを示す。
関連論文リスト
- Constant Rate Schedule: Constant-Rate Distributional Change for Efficient Training and Sampling in Diffusion Models [16.863038973001483]
拡散過程を通して拡散したデータの確率分布の変化率を一定に保証するノイズスケジュールを提案する。
ノイズスケジュールの関数形式は自動的に決定され、各データセットや拡散モデルのタイプに合わせて調整される。
論文 参考訳(メタデータ) (2024-11-19T03:02:39Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - On the Importance of Noise Scheduling for Diffusion Models [8.360383061862844]
拡散生成モデルにおけるノイズスケジューリング手法の効果について検討する。
この簡単なレシピは、ImageNet上の高解像度画像に対して、最先端のピクセルベースの拡散モデルを生成する。
論文 参考訳(メタデータ) (2023-01-26T07:37:22Z) - Self-Adapting Noise-Contrastive Estimation for Energy-Based Models [0.0]
ノイズコントラスト推定(NCE)を用いたトレーニングエネルギーベースモデルは理論的には実現可能であるが、実際は困難である。
従来の研究は、別個の生成モデルとしてノイズ分布をモデル化し、EBMでこのノイズモデルを同時に訓練してきた。
本論文では,EMMの静的なインスタンスを学習軌道に沿って雑音分布として利用する自己適応型NCEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-03T15:17:43Z) - Perception Prioritized Training of Diffusion Models [34.674477039333475]
ある種のノイズレベルで破損したデータを復元することは、モデルがリッチな視覚概念を学習するための適切な前提を提供することを示す。
目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。
論文 参考訳(メタデータ) (2022-04-01T06:22:23Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。