論文の概要: Analyzing and Improving the Training Dynamics of Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02696v2
- Date: Wed, 20 Mar 2024 12:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:08:02.185491
- Title: Analyzing and Improving the Training Dynamics of Diffusion Models
- Title(参考訳): 拡散モデルのトレーニングダイナミクスの解析と改善
- Authors: Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine,
- Abstract要約: 一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
- 参考スコア(独自算出の注目度): 36.37845647984578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models currently dominate the field of data-driven image synthesis with their unparalleled scaling to large datasets. In this paper, we identify and rectify several causes for uneven and ineffective training in the popular ADM diffusion model architecture, without altering its high-level structure. Observing uncontrolled magnitude changes and imbalances in both the network activations and weights over the course of training, we redesign the network layers to preserve activation, weight, and update magnitudes on expectation. We find that systematic application of this philosophy eliminates the observed drifts and imbalances, resulting in considerably better networks at equal computational complexity. Our modifications improve the previous record FID of 2.41 in ImageNet-512 synthesis to 1.81, achieved using fast deterministic sampling. As an independent contribution, we present a method for setting the exponential moving average (EMA) parameters post-hoc, i.e., after completing the training run. This allows precise tuning of EMA length without the cost of performing several training runs, and reveals its surprising interactions with network architecture, training time, and guidance.
- Abstract(参考訳): 拡散モデルは現在、大規模なデータセットへの非並列スケーリングによって、データ駆動型画像合成の分野を支配している。
本稿では, ADM拡散モデルアーキテクチャにおいて, 高次構造を変化させることなく, 不均一かつ非効率なトレーニングの要因を特定し, 修正する。
トレーニング中のネットワークのアクティベーションとウェイトの両方において、制御不能な大きさの変化と不均衡を観測し、期待値のアクティベーション、ウェイト、更新のマグニチュードを維持するために、ネットワーク層を再設計する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
我々は、画像Net-512合成における2.41のFIDを1.81に改善し、高速な決定論的サンプリングを行った。
独立なコントリビューションとして,指数移動平均(EMA)パラメータをポストホック,すなわちトレーニング実行終了後に設定する方法を提案する。
これにより、複数のトレーニング実行を実行するコストを伴わずにEMAの長さを正確にチューニングすることができ、ネットワークアーキテクチャやトレーニング時間、ガイダンスとの驚くべき相互作用を明らかにすることができる。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Enhancing Neural Training via a Correlated Dynamics Model [2.9302545029880394]
相関モード分解(CMD)は、パラメータ空間をグループにクラスタリングし、エポック間の同期動作を表示するアルゴリズムである。
トレーニングと同時に動作するように設計された効率的なCMDバリアントを導入する。
実験の結果,CMD は画像分類のコンパクトなモデル化のための最先端手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-20T18:22:49Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Accelerated Training via Incrementally Growing Neural Networks using
Variance Transfer and Learning Rate Adaptation [34.7523496790944]
本研究では,ニューラルネットワークを効率的に成長させる手法を開発し,パラメータ化と最適化の戦略をトレーニングダイナミクスを考慮して設計する。
提案手法は,従来のトレーニング予算の大部分を節約しつつ,大規模な固定サイズモデルのトレーニングよりも高い精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-22T07:06:45Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Dual adaptive training of photonic neural networks [30.86507809437016]
フォトニックニューラルネットワーク(PNN)は、低レイテンシ、高エネルギー効率、高並列性を特徴とする電子の代わりに光子を用いて計算する。
既存のトレーニングアプローチでは、大規模PNNにおける体系的エラーの広範な蓄積には対処できない。
そこで本研究では,PNNモデルが実質的な系統的誤りに適応できるように,DAT(Dual Adaptive Training)を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:03:45Z) - Inverse-Dirichlet Weighting Enables Reliable Training of Physics
Informed Neural Networks [2.580765958706854]
我々は、深層ニューラルネットワークのトレーニング中に、スケール不均衡を伴うマルチスケールダイナミクスから生じる障害モードを記述し、治療する。
PINNは、物理方程式モデルとデータとのシームレスな統合を可能にする、一般的な機械学習テンプレートである。
逐次トレーニングを用いた逆モデリングでは,逆ディリクレ重み付けがPINNを破滅的忘れから保護することがわかった。
論文 参考訳(メタデータ) (2021-07-02T10:01:37Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。