Fugu-MT 論文翻訳(概要): From Gradient Flow on Population Loss to Learning with Stochastic Gradient Descent

論文の概要: From Gradient Flow on Population Loss to Learning with Stochastic Gradient Descent

arxiv url: http://arxiv.org/abs/2210.06705v1
Date: Thu, 13 Oct 2022 03:55:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 15:06:38.177280
Title: From Gradient Flow on Population Loss to Learning with Stochastic Gradient Descent
Title（参考訳）: 人口減少の勾配流から確率的勾配降下による学習へ
Authors: Satyen Kale, Jason D. Lee, Chris De Sa, Ayush Sekhari, Karthik Sridharan
Abstract要約: SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
参考スコア（独自算出の注目度）: 50.4531316289086
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Stochastic Gradient Descent (SGD) has been the method of choice for learning large-scale non-convex models. While a general analysis of when SGD works has been elusive, there has been a lot of recent progress in understanding the convergence of Gradient Flow (GF) on the population loss, partly due to the simplicity that a continuous-time analysis buys us. An overarching theme of our paper is providing general conditions under which SGD converges, assuming that GF on the population loss converges. Our main tool to establish this connection is a general converse Lyapunov like theorem, which implies the existence of a Lyapunov potential under mild assumptions on the rates of convergence of GF. In fact, using these potentials, we show a one-to-one correspondence between rates of convergence of GF and geometrical properties of the underlying objective. When these potentials further satisfy certain self-bounding properties, we show that they can be used to provide a convergence guarantee for Gradient Descent (GD) and SGD (even when the paths of GF and GD/SGD are quite far apart). It turns out that these self-bounding assumptions are in a sense also necessary for GD/SGD to work. Using our framework, we provide a unified analysis for GD/SGD not only for classical settings like convex losses, or objectives that satisfy PL / KL properties, but also for more complex problems including Phase Retrieval and Matrix sq-root, and extending the results in the recent work of Chatterjee 2022.
Abstract（参考訳）: SGD(Stochastic Gradient Descent)は、大規模非凸モデルの学習方法である。 SGDがいつ機能するかの一般的な分析は行われてきたが、連続時間解析が私たちを買収する単純さを理由として、人口減少に対するグラディエントフロー(GF)の収束の理解が近年進歩している。本論文は,人口減少のGFが収束すると仮定して,SGDが収束する一般的な条件を提供するものである。この接続を確立するための主要なツールは一般の逆リープノフ様定理であり、これは GF の収束率に関する軽度の仮定の下でのリャプノフポテンシャルの存在を示唆するものである。実際、これらのポテンシャルを用いて、gfの収束率と基本目標の幾何学的性質の1対1の対応を示す。これらのポテンシャルがある種の自己有界性を満たすとき、GD(Gradient Descent)およびSGD(GFとGD/SGDの経路がかなり離れている場合でも)の収束を保証するために使用できることを示す。これらの自己有界仮定は、GD/SGDが機能するためにも必要である。このフレームワークを用いて,gd/sgdを,凸損失やpl/kl特性を満たす目的などの古典的設定だけでなく,位相検索や行列sq-rootといったより複雑な問題に対しても統合分析し,その結果をchatterjee 2022の最近の研究に拡張する。

関連論文リスト

On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文参考訳（メタデータ） (2024-12-27T20:29:47Z)
A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文参考訳（メタデータ） (2024-11-20T10:08:22Z)
On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文参考訳（メタデータ） (2024-10-10T15:34:10Z)
Demystifying the Myths and Legends of Nonconvex Convergence of SGD [17.445810977264067]
勾配勾配勾配(SGD)とその変種は、大規模最適化問題の解法の主要な仕事場である。分析として,勾配の非収束に関連する神話や伝説について考察した。
論文参考訳（メタデータ） (2023-10-19T17:58:59Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
Global Convergence of SGD On Two Layer Neural Nets [0.2302001830524133]
我々は,任意の数のゲートを持つ深さ2ドルのネットを適宜正規化した$ell-$empirical risk of depthとみなす。任意のデータに対して、SGDアンバウンドに対する経験的損失がどのように進化するか、またアクティベーションが適切に滑らかでシグモイドやタンのようにバウンドされているかどうかについて、バウンドを示す。
論文参考訳（メタデータ） (2022-10-20T17:50:46Z)
Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文参考訳（メタデータ） (2022-02-27T13:25:01Z)
On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文参考訳（メタデータ） (2022-01-26T22:02:21Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。本研究では, SGN はガウス的でも安定でもないと主張する。そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文参考訳（メタデータ） (2021-05-05T13:54:26Z)
Convergence of stochastic gradient descent schemes for Lojasiewicz-landscapes [0.0]
我々は、下層景観の弱い仮定の下で勾配降下スキームの収束を考察する。特に、ソフトプラス、シグモイド、双曲型タンジェントなどの解析活性化機能を持つニューラルネットワークの場合、SGDは有界な状態に収束することを示す。
論文参考訳（メタデータ） (2021-02-16T12:42:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。