Fugu-MT 論文翻訳(概要): Improved Noise Schedule for Diffusion Training

論文の概要: Improved Noise Schedule for Diffusion Training

arxiv url: http://arxiv.org/abs/2407.03297v2
Date: Wed, 27 Nov 2024 15:10:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:52.280376
Title: Improved Noise Schedule for Diffusion Training
Title（参考訳）: 拡散訓練における騒音スケジュールの改善
Authors: Tiankai Hang, Shuyang Gu, Xin Geng, Baining Guo,
Abstract要約: 本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
参考スコア（独自算出の注目度）: 51.849746576387375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have emerged as the de facto choice for generating high-quality visual signals across various domains. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence and improve model performance. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio ($\log \text{SNR}$), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. This strategic sampling allows the model to focus on the critical transition point between signal dominance and noise dominance, potentially leading to more robust and accurate predictions.We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule.Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets. Our findings contribute to the ongoing efforts to optimize diffusion models, potentially paving the way for more efficient and effective training paradigms in the field of generative AI.
Abstract（参考訳）: 拡散モデルは、様々な領域にわたる高品質な視覚信号を生成するための事実上の選択として現れてきた。しかし、様々なレベルのノイズを予測するために単一のモデルをトレーニングすることは、多くの反復を必要とし、かなりの計算コストを発生させる、重大な課題をもたらす。損失重み付け戦略設計やアーキテクチャの洗練といった様々なアプローチが、収束の迅速化とモデル性能の向上のために導入されている。本研究では,拡散モデルの訓練を改善するため,ノイズスケジュールを設計するための新しい手法を提案する。我々の重要な洞察は、理論上は修正ノイズスケジュールと等価であるSignal-to-Noise比(\log \text{SNR}$)の対数サンプリングの重要性は、サンプル周波数を$\log \text{SNR}=0$で増加させる際に特に有益であるということである。この戦略的サンプリングにより,信号優位性とノイズ優位性の間の重要な遷移点に焦点を合わせ,より堅牢で正確な予測を行うことが可能となり,標準コサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示すとともに,ImageNetベンチマーク上でのノイズスケジュール設計の利点を強調し,設計スケジュールが常に異なる予測目標の恩恵を受けることを示す。我々の発見は、拡散モデルを最適化するための継続的な取り組みに寄与し、生成AI分野におけるより効率的で効果的なトレーニングパラダイムの道を開く可能性がある。

関連論文リスト

HADL Framework for Noise Resilient Long-Term Time Series Forecasting [0.7810572107832383]
長期の時系列予測は、金融、経済、エネルギーといった分野において重要である。拡張されたルックバックウィンドウにおける時間ノイズの影響は未調査であり、しばしばモデル性能と計算効率を劣化させる。本稿では、離散ウェーブレット変換(DWT)と離散コサイン変換(DCT)を統合することで、これらの課題に対処する新しいフレームワークを提案する。提案手法は,ノイズの多い入力に対する競合堅牢性を示し,計算複雑性を著しく低減し,多様なベンチマークデータセット間での競合性ないし最先端の予測性能を実現する。
論文参考訳（メタデータ） (2025-02-14T21:41:42Z)
Unveiling the Power of Noise Priors: Enhancing Diffusion Models for Mobile Traffic Prediction [11.091373697136047]
ノイズはモバイルトラフィックの予測を形作り、明瞭で一貫したパターンを示す。 NPDiffは,雑音をテキストプリンシパルとテキストプリンシパルに分解するフレームワークである。 NPDiffは、様々な拡散に基づく予測モデルとシームレスに統合することができ、効率的、効率的、堅牢な予測を提供する。
論文参考訳（メタデータ） (2025-01-23T16:13:08Z)
Constant Rate Schedule: Constant-Rate Distributional Change for Efficient Training and Sampling in Diffusion Models [16.863038973001483]
拡散過程を通して拡散したデータの確率分布の変化率を一定に保証するノイズスケジュールを提案する。ノイズスケジュールの関数形式は自動的に決定され、各データセットや拡散モデルのタイプに合わせて調整される。
論文参考訳（メタデータ） (2024-11-19T03:02:39Z)
Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文参考訳（メタデータ） (2024-05-29T08:39:39Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文参考訳（メタデータ） (2024-02-07T14:59:25Z)
Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
On the Importance of Noise Scheduling for Diffusion Models [8.360383061862844]
拡散生成モデルにおけるノイズスケジューリング手法の効果について検討する。この簡単なレシピは、ImageNet上の高解像度画像に対して、最先端のピクセルベースの拡散モデルを生成する。
論文参考訳（メタデータ） (2023-01-26T07:37:22Z)
Self-Adapting Noise-Contrastive Estimation for Energy-Based Models [0.0]
ノイズコントラスト推定(NCE)を用いたトレーニングエネルギーベースモデルは理論的には実現可能であるが、実際は困難である。従来の研究は、別個の生成モデルとしてノイズ分布をモデル化し、EBMでこのノイズモデルを同時に訓練してきた。本論文では,EMMの静的なインスタンスを学習軌道に沿って雑音分布として利用する自己適応型NCEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-03T15:17:43Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
Perception Prioritized Training of Diffusion Models [34.674477039333475]
ある種のノイズレベルで破損したデータを復元することは、モデルがリッチな視覚概念を学習するための適切な前提を提供することを示す。目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。
論文参考訳（メタデータ） (2022-04-01T06:22:23Z)
The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文参考訳（メタデータ） (2022-03-02T13:59:20Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。