論文の概要: From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent
- arxiv url: http://arxiv.org/abs/2210.06705v1
- Date: Thu, 13 Oct 2022 03:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:06:38.177280
- Title: From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent
- Title(参考訳): 人口減少の勾配流から確率的勾配降下による学習へ
- Authors: Satyen Kale, Jason D. Lee, Chris De Sa, Ayush Sekhari, Karthik
Sridharan
- Abstract要約: SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
- 参考スコア(独自算出の注目度): 50.4531316289086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stochastic Gradient Descent (SGD) has been the method of choice for learning
large-scale non-convex models. While a general analysis of when SGD works has
been elusive, there has been a lot of recent progress in understanding the
convergence of Gradient Flow (GF) on the population loss, partly due to the
simplicity that a continuous-time analysis buys us. An overarching theme of our
paper is providing general conditions under which SGD converges, assuming that
GF on the population loss converges. Our main tool to establish this connection
is a general converse Lyapunov like theorem, which implies the existence of a
Lyapunov potential under mild assumptions on the rates of convergence of GF. In
fact, using these potentials, we show a one-to-one correspondence between rates
of convergence of GF and geometrical properties of the underlying objective.
When these potentials further satisfy certain self-bounding properties, we show
that they can be used to provide a convergence guarantee for Gradient Descent
(GD) and SGD (even when the paths of GF and GD/SGD are quite far apart). It
turns out that these self-bounding assumptions are in a sense also necessary
for GD/SGD to work. Using our framework, we provide a unified analysis for
GD/SGD not only for classical settings like convex losses, or objectives that
satisfy PL / KL properties, but also for more complex problems including Phase
Retrieval and Matrix sq-root, and extending the results in the recent work of
Chatterjee 2022.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)は、大規模非凸モデルの学習方法である。
SGDがいつ機能するかの一般的な分析は行われてきたが、連続時間解析が私たちを買収する単純さを理由として、人口減少に対するグラディエントフロー(GF)の収束の理解が近年進歩している。
本論文は,人口減少のGFが収束すると仮定して,SGDが収束する一般的な条件を提供するものである。
この接続を確立するための主要なツールは一般の逆リープノフ様定理であり、これは GF の収束率に関する軽度の仮定の下でのリャプノフポテンシャルの存在を示唆するものである。
実際、これらのポテンシャルを用いて、gfの収束率と基本目標の幾何学的性質の1対1の対応を示す。
これらのポテンシャルがある種の自己有界性を満たすとき、GD(Gradient Descent)およびSGD(GFとGD/SGDの経路がかなり離れている場合でも)の収束を保証するために使用できることを示す。
これらの自己有界仮定は、GD/SGDが機能するためにも必要である。
このフレームワークを用いて,gd/sgdを,凸損失やpl/kl特性を満たす目的などの古典的設定だけでなく,位相検索や行列sq-rootといったより複雑な問題に対しても統合分析し,その結果をchatterjee 2022の最近の研究に拡張する。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Demystifying the Myths and Legends of Nonconvex Convergence of SGD [17.445810977264067]
勾配勾配勾配(SGD)とその変種は、大規模最適化問題の解法の主要な仕事場である。
分析として,勾配の非収束に関連する神話や伝説について考察した。
論文 参考訳(メタデータ) (2023-10-19T17:58:59Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Convergence of stochastic gradient descent schemes for
Lojasiewicz-landscapes [0.0]
我々は、下層景観の弱い仮定の下で勾配降下スキームの収束を考察する。
特に、ソフトプラス、シグモイド、双曲型タンジェントなどの解析活性化機能を持つニューラルネットワークの場合、SGDは有界な状態に収束することを示す。
論文 参考訳(メタデータ) (2021-02-16T12:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。