論文の概要: A Unified Analysis for Finite Weight Averaging
- arxiv url: http://arxiv.org/abs/2411.13169v1
- Date: Wed, 20 Nov 2024 10:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:52.881400
- Title: A Unified Analysis for Finite Weight Averaging
- Title(参考訳): 有限重み平均化の統一解析
- Authors: Peng Wang, Li Shen, Zerui Tao, Yan Sun, Guodong Zheng, Dacheng Tao,
- Abstract要約: Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
- 参考スコア(独自算出の注目度): 50.75116992029417
- License:
- Abstract: Averaging iterations of Stochastic Gradient Descent (SGD) have achieved empirical success in training deep learning models, such as Stochastic Weight Averaging (SWA), Exponential Moving Average (EMA), and LAtest Weight Averaging (LAWA). Especially, with a finite weight averaging method, LAWA can attain faster convergence and better generalization. However, its theoretical explanation is still less explored since there are fundamental differences between finite and infinite settings. In this work, we first generalize SGD and LAWA as Finite Weight Averaging (FWA) and explain their advantages compared to SGD from the perspective of optimization and generalization. A key challenge is the inapplicability of traditional methods in the sense of expectation or optimal values for infinite-dimensional settings in analyzing FWA's convergence. Second, the cumulative gradients introduced by FWA introduce additional confusion to the generalization analysis, especially making it more difficult to discuss them under different assumptions. Extending the final iteration convergence analysis to the FWA, this paper, under a convexity assumption, establishes a convergence bound $\mathcal{O}(\log\left(\frac{T}{k}\right)/\sqrt{T})$, where $k\in[1, T/2]$ is a constant representing the last $k$ iterations. Compared to SGD with $\mathcal{O}(\log(T)/\sqrt{T})$, we prove theoretically that FWA has a faster convergence rate and explain the effect of the number of average points. In the generalization analysis, we find a recursive representation for bounding the cumulative gradient using mathematical induction. We provide bounds for constant and decay learning rates and the convex and non-convex cases to show the good generalization performance of FWA. Finally, experimental results on several benchmarks verify our theoretical results.
- Abstract(参考訳): Stochastic Gradient Descent(SGD)の平均的なイテレーションは、Stochastic Weight Averaging(SWA)、Exponential moving Average(EMA)、LAtest Weight Averaging(LAWA)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
特に、有限重み平均化法により、LAWAはより高速な収束とより優れた一般化を達成することができる。
しかし、その理論的な説明は、有限条件と無限条件の間には根本的な違いがあるため、まだ研究されていない。
本研究では,まずSGDとLAWAをFWA(Finite Weight Averaging)として一般化し,最適化と一般化の観点からSGDとの比較を行った。
鍵となる課題は、FWAの収束を分析する際に、期待値や無限次元の設定に対する最適値が適用できないことである。
第二に、FWAによって導入された累積勾配は一般化解析にさらなる混乱をもたらし、特に異なる仮定の下でそれらを議論することがより困難になる。
最終反復収束解析を FWA に拡張すると、凸性仮定の下では、$k\in[1, T/2]$ が最後の$k$反復を表す定数であるような収束境界 $\mathcal{O}(\log\left(\frac{T}{k}\right)/\sqrt{T})$ が成立する。
SGD と $\mathcal{O}(\log(T)/\sqrt{T})$ と比較すると、FWA がより高速な収束率を持つことを理論的に証明し、平均点数の影響を説明する。
一般化解析では、数学的帰納法を用いて累積勾配を有界化するための再帰的表現を求める。
我々は,FWAの一般化性能を示すために,定数および減衰学習率と凸および非凸ケースのバウンダリを提供する。
最後に、いくつかのベンチマークによる実験結果により、理論的結果が検証された。
関連論文リスト
- Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective
and Improved Bounds [12.699376765058137]
勾配降下法(SGD)は、おそらく現代の機械学習において最も一般的な最適化法である。
SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。
データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明します。
論文 参考訳(メタデータ) (2023-06-21T18:14:44Z) - A Convergence Theory for Federated Average: Beyond Smoothness [28.074273047592065]
フェデレートラーニングにより、大量のエッジコンピューティングデバイスが、データ共有を併用せずにモデルを学習できるようになる。
この設定における主要なアルゴリズムとして、ローカルデバイス上でGradient Descent(SGD)を並列に実行するFederated Average FedAvgが広く使用されている。
本稿では,フェデレートラーニングに関する理論的収束研究について述べる。
論文 参考訳(メタデータ) (2022-11-03T04:50:49Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Sharp Bounds for Federated Averaging (Local SGD) and Continuous
Perspective [49.17352150219212]
Federated AveragingFedAvg(ローカルSGD)は、Federated Learning(FL)で最も人気のあるアルゴリズムの1つである。
微分方程式(SDE)の観点から、この量を解析する方法を示す。
論文 参考訳(メタデータ) (2021-11-05T22:16:11Z) - Large Learning Rate Tames Homogeneity: Convergence and Balancing Effect [43.00475513526005]
等質行列因数分解問題に対して,学習率の高いグラディエントDescent (GD) を用いることを検討する。
一定の大規模学習率に対する収束理論を2/L$以上で証明する。
我々はこのような大きな学習率によって引き起こされるGDの暗黙の偏見を厳格に確立し、「バランス」という。
論文 参考訳(メタデータ) (2021-10-07T17:58:21Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Convergence Rates of Stochastic Gradient Descent under Infinite Noise
Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。
SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。
その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文 参考訳(メタデータ) (2021-02-20T13:45:11Z) - Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。
平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。
任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2020-06-16T20:53:04Z) - Better Theory for SGD in the Nonconvex World [2.6397379133308214]
大規模な非最適化問題は、現代の機械学習ではユビキタスである。
我々は, 広範囲の合成ミニバッチサイズがグラディエントDescent (SG) 問題に与える影響について実験を行った。
論文 参考訳(メタデータ) (2020-02-09T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。