論文の概要: What is the long-run distribution of stochastic gradient descent? A large deviations analysis
- arxiv url: http://arxiv.org/abs/2406.09241v1
- Date: Thu, 13 Jun 2024 15:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:05:04.069031
- Title: What is the long-run distribution of stochastic gradient descent? A large deviations analysis
- Title(参考訳): 確率勾配勾配の長期分布について : 大規模偏差解析
- Authors: Waïss Azizian, Franck Iutzeler, Jérôme Malick, Panayotis Mertikopoulos,
- Abstract要約: 長期的には、問題の臨界領域は、どの非臨界領域よりも指数関数的に訪問されることが示される。
臨界点の他の連結成分は全て、そのエネルギーレベルに指数的に比例する周波数で訪問される。
- 参考スコア(独自算出の注目度): 29.642830843568525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we examine the long-run distribution of stochastic gradient descent (SGD) in general, non-convex problems. Specifically, we seek to understand which regions of the problem's state space are more likely to be visited by SGD, and by how much. Using an approach based on the theory of large deviations and randomly perturbed dynamical systems, we show that the long-run distribution of SGD resembles the Boltzmann-Gibbs distribution of equilibrium thermodynamics with temperature equal to the method's step-size and energy levels determined by the problem's objective and the statistics of the noise. In particular, we show that, in the long run, (a) the problem's critical region is visited exponentially more often than any non-critical region; (b) the iterates of SGD are exponentially concentrated around the problem's minimum energy state (which does not always coincide with the global minimum of the objective); (c) all other connected components of critical points are visited with frequency that is exponentially proportional to their energy level; and, finally (d) any component of local maximizers or saddle points is "dominated" by a component of local minimizers which is visited exponentially more often.
- Abstract(参考訳): 本稿では,一般の非凸問題における確率勾配降下(SGD)の長期分布について検討する。
具体的には、問題の状態空間のどの領域がSGDに訪問されるか、どの程度の頻度で理解したいと考えている。
大規模偏差理論とランダムな摂動力学系に基づくアプローチを用いて、SGDの長期分布は、熱力学のボルツマン・ギブス分布と温度が、問題の目的と雑音の統計によって決定されるエネルギーレベルと等しくなることを示す。
特に、長い目で見てみましょう。
a) 問題の臨界領域は、どの非臨界領域よりも指数関数的に訪問される。
b) SGDの反復体は、問題の最小エネルギー状態の周りに指数関数的に集中している(これは常に目的のグローバルな最小値と一致するとは限らない)。
(c)他の臨界点の連結成分は全て、そのエネルギーレベルに指数的に比例する周波数で訪問される。
(d) 局所極大点やサドル点の任意の成分は、指数関数的に頻繁に訪れる局所極小点の成分によって「支配」される。
関連論文リスト
- Statistics of systemwide correlations in the random-field XXZ chain: Importance of rare events in the many-body localized phase [0.0]
ランダムフィールドXXZモデルの位相図において,長距離スピンスピン相関について検討した。
縦方向の相関は明らかに異なる挙動を示し, 異なる物理状態を示す。
本研究は,MBL相の安定性に対する,このような稀ながら大きな長距離相関の影響について,システム全体の不安定性に光を当て,重要な疑問を提起した。
論文 参考訳(メタデータ) (2024-10-14T09:37:44Z) - Thermalization Dynamics in Closed Quantum Many Body Systems: a Precision Large Scale Exact Diagonalization Study [0.0]
得られた平衡状態と熱状態の間の有限サイズ偏差について検討する。
偏差は固有状態熱化仮説によってよく説明されている。
また, 局所観測変数は系長とともに線形に成長する緩和時間スケールで指数関数的に平衡に向かって緩和することを示した。
論文 参考訳(メタデータ) (2024-09-27T15:58:05Z) - Highly complex novel critical behavior from the intrinsic randomness of quantum mechanical measurements on critical ground states -- a controlled renormalization group analysis [0.0]
弱測定が1次元三臨界および臨界量子イジングモデルの量子臨界基底状態に与える影響を考察する。
制御された再正規化群解析を用いることで、各問題は非常に複雑なスケーリング挙動を示すことが分かる。
論文 参考訳(メタデータ) (2024-09-03T17:59:04Z) - Universality in the tripartite information after global quenches: spin
flip and semilocal charges [0.0]
我々は、時間進化が地域のハミルトン人の下で行われるグローバル・クエンチの後に出現する定常状態について研究する。
初期状態における局所摂動は、定常状態における空間的相関の指数的減衰を代数的減衰に変換することができることを示す。
論文 参考訳(メタデータ) (2023-07-04T17:44:56Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Localization in the random XXZ quantum spin chain [55.2480439325792]
We study the many-body localization (MBL) properties of the Heisenberg XXZ spin-$frac12$ chain in a random magnetic field。
パラメータ空間の非自明な領域におけるスペクトルの底辺の任意のエネルギー間隔における局所化を示す。
論文 参考訳(メタデータ) (2022-10-26T17:25:13Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Role of boundary conditions in the full counting statistics of
topological defects after crossing a continuous phase transition [62.997667081978825]
トポロジカル欠陥の統計学における境界条件の役割を解析する。
また, クイン数分布の累積は, クエンチ率に比例して普遍的なスケーリングを示すことを示した。
論文 参考訳(メタデータ) (2022-07-08T09:55:05Z) - Emergence of Fermi's Golden Rule [55.73970798291771]
フェルミの黄金律(FGR)は、初期量子状態が他の最終状態の連続体と弱結合している極限に適用される。
ここでは、最終状態の集合が離散的なこの極限から何が起こるか、非ゼロ平均レベル間隔で調べる。
論文 参考訳(メタデータ) (2022-06-01T18:35:21Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。