論文の概要: Improved Noise Schedule for Diffusion Training
- arxiv url: http://arxiv.org/abs/2407.03297v2
- Date: Wed, 27 Nov 2024 15:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:26.434490
- Title: Improved Noise Schedule for Diffusion Training
- Title(参考訳): 拡散訓練における騒音スケジュールの改善
- Authors: Tiankai Hang, Shuyang Gu, Xin Geng, Baining Guo,
- Abstract要約: 本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 51.849746576387375
- License:
- Abstract: Diffusion models have emerged as the de facto choice for generating high-quality visual signals across various domains. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence and improve model performance. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio ($\log \text{SNR}$), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. This strategic sampling allows the model to focus on the critical transition point between signal dominance and noise dominance, potentially leading to more robust and accurate predictions.We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule.Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets. Our findings contribute to the ongoing efforts to optimize diffusion models, potentially paving the way for more efficient and effective training paradigms in the field of generative AI.
- Abstract(参考訳): 拡散モデルは、様々な領域にわたる高品質な視覚信号を生成するための事実上の選択として現れてきた。
しかし、様々なレベルのノイズを予測するために単一のモデルをトレーニングすることは、多くの反復を必要とし、かなりの計算コストを発生させる、重大な課題をもたらす。
損失重み付け戦略設計やアーキテクチャの洗練といった様々なアプローチが、収束の迅速化とモデル性能の向上のために導入されている。
本研究では,拡散モデルの訓練を改善するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々の重要な洞察は、理論上は修正ノイズスケジュールと等価であるSignal-to-Noise比(\log \text{SNR}$)の対数サンプリングの重要性は、サンプル周波数を$\log \text{SNR}=0$で増加させる際に特に有益であるということである。
この戦略的サンプリングにより,信号優位性とノイズ優位性の間の重要な遷移点に焦点を合わせ,より堅牢で正確な予測を行うことが可能となり,標準コサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示すとともに,ImageNetベンチマーク上でのノイズスケジュール設計の利点を強調し,設計スケジュールが常に異なる予測目標の恩恵を受けることを示す。
我々の発見は、拡散モデルを最適化するための継続的な取り組みに寄与し、生成AI分野におけるより効率的で効果的なトレーニングパラダイムの道を開く可能性がある。
関連論文リスト
- HADL Framework for Noise Resilient Long-Term Time Series Forecasting [0.7810572107832383]
長期の時系列予測は、金融、経済、エネルギーといった分野において重要である。
拡張されたルックバックウィンドウにおける時間ノイズの影響は未調査であり、しばしばモデル性能と計算効率を劣化させる。
本稿では、離散ウェーブレット変換(DWT)と離散コサイン変換(DCT)を統合することで、これらの課題に対処する新しいフレームワークを提案する。
提案手法は,ノイズの多い入力に対する競合堅牢性を示し,計算複雑性を著しく低減し,多様なベンチマークデータセット間での競合性ないし最先端の予測性能を実現する。
論文 参考訳(メタデータ) (2025-02-14T21:41:42Z) - Unveiling the Power of Noise Priors: Enhancing Diffusion Models for Mobile Traffic Prediction [11.091373697136047]
ノイズはモバイルトラフィックの予測を形作り、明瞭で一貫したパターンを示す。
NPDiffは,雑音をテキストプリンシパルとテキストプリンシパルに分解するフレームワークである。
NPDiffは、様々な拡散に基づく予測モデルとシームレスに統合することができ、効率的、効率的、堅牢な予測を提供する。
論文 参考訳(メタデータ) (2025-01-23T16:13:08Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Perception Prioritized Training of Diffusion Models [34.674477039333475]
ある種のノイズレベルで破損したデータを復元することは、モデルがリッチな視覚概念を学習するための適切な前提を提供することを示す。
目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。
論文 参考訳(メタデータ) (2022-04-01T06:22:23Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。