論文の概要: ScaleLong: Towards More Stable Training of Diffusion Model via Scaling
Network Long Skip Connection
- arxiv url: http://arxiv.org/abs/2310.13545v1
- Date: Fri, 20 Oct 2023 14:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:34:41.885265
- Title: ScaleLong: Towards More Stable Training of Diffusion Model via Scaling
Network Long Skip Connection
- Title(参考訳): scalelong: scaling network long skip connectionによる拡散モデルのより安定したトレーニングに向けて
- Authors: Zhongzhan Huang, Pan Zhou, Shuicheng Yan, Liang Lin
- Abstract要約: UNetにおけるLCCの係数は,UNetの前方・後方伝播の安定性とロバスト性に大きな影響を及ぼすことを示す。
UNet における LSC の係数をスケールし,UNet のトレーニング安定性を向上する,効果的な係数スケーリングフレームワーク ScaleLong を提案する。
- 参考スコア(独自算出の注目度): 152.01257690637064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In diffusion models, UNet is the most popular network backbone, since its
long skip connects (LSCs) to connect distant network blocks can aggregate
long-distant information and alleviate vanishing gradient. Unfortunately, UNet
often suffers from unstable training in diffusion models which can be
alleviated by scaling its LSC coefficients smaller. However, theoretical
understandings of the instability of UNet in diffusion models and also the
performance improvement of LSC scaling remain absent yet. To solve this issue,
we theoretically show that the coefficients of LSCs in UNet have big effects on
the stableness of the forward and backward propagation and robustness of UNet.
Specifically, the hidden feature and gradient of UNet at any layer can
oscillate and their oscillation ranges are actually large which explains the
instability of UNet training. Moreover, UNet is also provably sensitive to
perturbed input, and predicts an output distant from the desired output,
yielding oscillatory loss and thus oscillatory gradient. Besides, we also
observe the theoretical benefits of the LSC coefficient scaling of UNet in the
stableness of hidden features and gradient and also robustness. Finally,
inspired by our theory, we propose an effective coefficient scaling framework
ScaleLong that scales the coefficients of LSC in UNet and better improves the
training stability of UNet. Experimental results on four famous datasets show
that our methods are superior to stabilize training and yield about 1.5x
training acceleration on different diffusion models with UNet or UViT
backbones. Code: https://github.com/sail-sg/ScaleLong
- Abstract(参考訳): 拡散モデルでは、遠方のネットワークブロックを繋ぐための長いスキップ接続(LSC)は、長距離情報を集約し、消滅する勾配を緩和できるため、UNetが最も人気のあるネットワークバックボーンである。
残念ながら、UNetは拡散モデルの不安定なトレーニングに悩まされることが多く、LSC係数を小さくすることで緩和できる。
しかし、拡散モデルにおけるUNetの不安定性とLCCスケーリングの性能改善に関する理論的理解はまだ残っていない。
そこで本研究では, unet における lsc の係数が unet の前方および後方伝播の安定性とロバスト性に大きな影響を与えることを理論的に示す。
具体的には、任意の層におけるUNetの隠れた特徴と勾配が発振可能であり、その発振範囲は実際に大きいため、UNetトレーニングの不安定性が説明できる。
さらに、UNetは摂動入力に対して確実に敏感であり、所望の出力から離れた出力を予測し、振動損失を生じ、振動勾配を生じる。
また, unet の lsc 係数スケーリングの理論的利点として, 隠れた特徴の安定性, 勾配およびロバスト性についても考察した。
最後に,本理論に触発されて,unet における lsc の係数をスケールし, unet のトレーニング安定性を向上させる効果的な係数スケーリングフレームワークである scalelong を提案する。
4つの有名なデータセットによる実験結果から,UNetやUViTのバックボーンを持つ異なる拡散モデルにおいて,トレーニングの安定化と約1.5倍のトレーニングアクセラレーションが得られた。
コード:https://github.com/sail-sg/ScaleLong
関連論文リスト
- Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Gradient Reweighting: Towards Imbalanced Class-Incremental Learning [8.438092346233054]
CIL(Class-Incremental Learning)は、非定常データから新しいクラスを継続的に認識するためにモデルを訓練する。
CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する場合である。
この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。
論文 参考訳(メタデータ) (2024-02-28T18:08:03Z) - Preserving Near-Optimal Gradient Sparsification Cost for Scalable
Distributed Deep Learning [0.32634122554914]
勾配スペーシフィケーションは、モデルの忠実度を著しく損なうことなく、通信量を削減するための潜在的な最適化手法である。
既存の勾配スペーシフィケーション法は、アルゴリズムの非効率設計のため、スケーラビリティが低い。
本稿では,これらの課題に対処するため,ExDynaと呼ばれる新しい勾配スカラー化手法を提案する。
実験では、ExDynaはトレーニング速度とスパシフィケーション性能の点で最先端のスパシファイアよりも優れていた。
論文 参考訳(メタデータ) (2024-02-21T13:00:44Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Recycling Model Updates in Federated Learning: Are Gradient Subspaces
Low-Rank? [26.055358499719027]
本稿では,この低ランク性を利用して勾配リサイクルを実現する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。
我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。
LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2022-02-01T09:05:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Federated Stochastic Gradient Langevin Dynamics [12.180900849847252]
勾配ランゲヴィン力学(SGLD)のような勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。
本稿では,局所確率近似を組み合わせ,勾配の修正を行う単純なメカニズムである導出勾配を提案する。
DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。
論文 参考訳(メタデータ) (2020-04-23T15:25:09Z) - Stabilizing Training of Generative Adversarial Nets via Langevin Stein
Variational Gradient Descent [11.329376606876101]
我々は,新しい粒子に基づく変分推論(LSVGD)によるGANトレーニングの安定化を提案する。
LSVGDのダイナミクスは暗黙の規則化を持ち、粒子の広がりと多様性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-22T11:20:04Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。