論文の概要: Understanding SGD with Exponential Moving Average: A Case Study in Linear Regression
- arxiv url: http://arxiv.org/abs/2502.14123v1
- Date: Wed, 19 Feb 2025 21:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:49.535101
- Title: Understanding SGD with Exponential Moving Average: A Case Study in Linear Regression
- Title(参考訳): 指数移動平均値を用いたSGDの理解:線形回帰を事例として
- Authors: Xuheng Li, Quanquan Gu,
- Abstract要約: 指数移動平均(EMA)は近年,現代のディープラーニングモデルのトレーニングにおいて大きな人気を集めている。
本稿では,高次元線形回帰のためのオンラインSGDとEMAのリスクバウンダリを確立する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License:
- Abstract: Exponential moving average (EMA) has recently gained significant popularity in training modern deep learning models, especially diffusion-based generative models. However, there have been few theoretical results explaining the effectiveness of EMA. In this paper, to better understand EMA, we establish the risk bound of online SGD with EMA for high-dimensional linear regression, one of the simplest overparameterized learning tasks that shares similarities with neural networks. Our results indicate that (i) the variance error of SGD with EMA is always smaller than that of SGD without averaging, and (ii) unlike SGD with iterate averaging from the beginning, the bias error of SGD with EMA decays exponentially in every eigen-subspace of the data covariance matrix. Additionally, we develop proof techniques applicable to the analysis of a broad class of averaging schemes.
- Abstract(参考訳): 指数移動平均 (Exponential moving average, EMA) は近年, 近代的なディープラーニングモデル, 特に拡散に基づく生成モデルの訓練において大きな人気を集めている。
しかし、EMAの有効性を説明する理論的結果はほとんどない。
本稿では、EMAをよりよく理解するために、ニューラルネットワークと類似性を共有する最も単純な過パラメータ学習タスクの一つである高次元線形回帰のためのEMAとオンラインSGDのリスクバウンダリを確立する。
私たちの結果は
(i)EMAによるSGDの分散誤差は平均化しないSGDの分散誤差よりも常に小さい。
(II)データ共分散行列のすべての固有部分空間において,SGDとEMAの偏差誤差は指数関数的に減少する。
さらに、我々は、幅広い平均化スキームの分析に適用可能な証明手法を開発した。
関連論文リスト
- Exponential Moving Average of Weights in Deep Learning: Dynamics and Benefits [11.801688624472009]
重量の指数移動平均(EMA)について系統的研究を行った。
EMA ソリューションは最終項目のソリューションと異なることを示す。
重みのEMAは、深層学習モデルの性能を向上させるためのシンプルで効果的なプラグインであることが示唆された。
論文 参考訳(メタデータ) (2024-11-27T19:14:27Z) - Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - The Generalization Error of Stochastic Mirror Descent on
Over-Parametrized Linear Models [37.6314945221565]
ディープネットワークは、目に見えないデータにうまく一般化することが知られている。
正規化特性は「良い」性質を持つ補間解が見つかることを保証している。
理論を検証し、2つのデータモデルを導入するシミュレーション結果を提案する。
論文 参考訳(メタデータ) (2023-02-18T22:23:42Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。