論文の概要: Exponential Moving Average of Weights in Deep Learning: Dynamics and Benefits
- arxiv url: http://arxiv.org/abs/2411.18704v1
- Date: Wed, 27 Nov 2024 19:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:34.439142
- Title: Exponential Moving Average of Weights in Deep Learning: Dynamics and Benefits
- Title(参考訳): ディープラーニングにおける重みの指数移動平均:ダイナミクスと便益
- Authors: Daniel Morales-Brotons, Thijs Vogels, Hadrien Hendrikx,
- Abstract要約: 重量の指数移動平均(EMA)について系統的研究を行った。
EMA ソリューションは最終項目のソリューションと異なることを示す。
重みのEMAは、深層学習モデルの性能を向上させるためのシンプルで効果的なプラグインであることが示唆された。
- 参考スコア(独自算出の注目度): 11.801688624472009
- License:
- Abstract: Weight averaging of Stochastic Gradient Descent (SGD) iterates is a popular method for training deep learning models. While it is often used as part of complex training pipelines to improve generalization or serve as a `teacher' model, weight averaging lacks proper evaluation on its own. In this work, we present a systematic study of the Exponential Moving Average (EMA) of weights. We first explore the training dynamics of EMA, give guidelines for hyperparameter tuning, and highlight its good early performance, partly explaining its success as a teacher. We also observe that EMA requires less learning rate decay compared to SGD since averaging naturally reduces noise, introducing a form of implicit regularization. Through extensive experiments, we show that EMA solutions differ from last-iterate solutions. EMA models not only generalize better but also exhibit improved i) robustness to noisy labels, ii) prediction consistency, iii) calibration and iv) transfer learning. Therefore, we suggest that an EMA of weights is a simple yet effective plug-in to improve the performance of deep learning models.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)イテレートの重み付けは、ディープラーニングモデルをトレーニングするための一般的な方法である。
一般化や'Teacher'モデルとして機能するために、複雑なトレーニングパイプラインの一部として使われることが多いが、平均的な重み付けは、それ自体で適切な評価をしていない。
本研究では,重量の指数移動平均(EMA)を体系的に研究する。
まず、EMAのトレーニング力学を探求し、ハイパーパラメータチューニングのガイドラインを与え、その優れた初期のパフォーマンスを強調し、その成功を教師として説明する。
また,学習速度の低下をSGDと比較すると,平均化が自然にノイズを低減し,暗黙の正則化の形式を導入するため,学習速度の低下はSGDに比べて少ないことが観察された。
広範な実験により、EMAの解は最終段階の解とは異なることを示した。
EMAモデルはより一般化されるだけでなく、改善される。
一 うるさいラベルに対する堅牢性
二 予測整合性
三 校正及び校正
iv) 転帰学習。
そこで本研究では,重みのEMAが,ディープラーニングモデルの性能向上に有効なプラグインであることが示唆された。
関連論文リスト
- Understanding SGD with Exponential Moving Average: A Case Study in Linear Regression [55.2480439325792]
指数移動平均(EMA)は近年,現代のディープラーニングモデルのトレーニングにおいて大きな人気を集めている。
本稿では,高次元線形回帰のためのオンラインSGDとEMAのリスクバウンダリを確立する。
論文 参考訳(メタデータ) (2025-02-19T21:55:11Z) - Switch EMA: A Free Lunch for Better Flatness and Sharpness [58.55452862747021]
この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
論文 参考訳(メタデータ) (2024-02-14T15:28:42Z) - Exponential weight averaging as damped harmonic motion [13.305570580429489]
指数移動平均 (EMA) は、ディープラーニング最適化において安定した量の推定値を提供するために一般的に用いられる統計量である。
本稿では, EMAと減衰調和系との間には, 理想化されたゼロ長ばねにより一方の粒子(EMA重み)を他方の粒子(モデル重み)に引いて有意な結合を導出する。
次に、この物理アナロジーを利用して、EMAの有効性を分析し、BELAYと呼ばれる改良されたトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-20T23:15:46Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Reconciling Modern Deep Learning with Traditional Optimization Analyses:
The Intrinsic Learning Rate [36.83448475700536]
最近の研究は、今日のディープラーニングにおけるバッチ正規化の使用が、従来の最適化の観点から遠く離れていることを示唆している。
本稿では,正規化された網の振舞いが従来の視点から逸脱する他の方法を強調する。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
論文 参考訳(メタデータ) (2020-10-06T17:58:29Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。