論文の概要: Law of Balance and Stationary Distribution of Stochastic Gradient
Descent
- arxiv url: http://arxiv.org/abs/2308.06671v1
- Date: Sun, 13 Aug 2023 03:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:02:51.026022
- Title: Law of Balance and Stationary Distribution of Stochastic Gradient
Descent
- Title(参考訳): 確率勾配降下の平衡の法則と定常分布
- Authors: Liu Ziyin, Hongchao Li, Masahito Ueda
- Abstract要約: 我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
- 参考スコア(独自算出の注目度): 11.937085301750288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stochastic gradient descent (SGD) algorithm is the algorithm we use to
train neural networks. However, it remains poorly understood how the SGD
navigates the highly nonlinear and degenerate loss landscape of a neural
network. In this work, we prove that the minibatch noise of SGD regularizes the
solution towards a balanced solution whenever the loss function contains a
rescaling symmetry. Because the difference between a simple diffusion process
and SGD dynamics is the most significant when symmetries are present, our
theory implies that the loss function symmetries constitute an essential probe
of how SGD works. We then apply this result to derive the stationary
distribution of stochastic gradient flow for a diagonal linear network with
arbitrary depth and width. The stationary distribution exhibits complicated
nonlinear phenomena such as phase transitions, broken ergodicity, and
fluctuation inversion. These phenomena are shown to exist uniquely in deep
networks, implying a fundamental difference between deep and shallow models.
- Abstract(参考訳): 確率勾配降下(sgd)アルゴリズムは、ニューラルネットワークのトレーニングに使用するアルゴリズムである。
しかし、SGDがニューラルネットワークの非常に非線形で縮退した損失の状況をどのようにナビゲートするかは理解されていない。
本研究では、損失関数が再スケーリング対称性を含む場合、SGDのミニバッチノイズが平衡解に対する解を正則化することを示す。
単純な拡散過程とsgd動力学の違いは対称性が存在する場合に最も重要であるため、損失関数対称性はsgdの作用の基本的なプローブであることが示唆される。
この結果を用いて,任意の深さと幅を持つ対角線ネットワークに対する確率勾配流の定常分布を導出する。
定常分布は、相転移、破壊エルゴード性、揺らぎの反転といった複雑な非線形現象を示す。
これらの現象は深層ネットワークに一意に存在することが示されており、深層モデルと浅層モデルの違いを示唆している。
関連論文リスト
- Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent [8.347295051171525]
連続対称性の幅広いサブクラスである指数対称性が損失関数に存在するとき、勾配降下(SGD)の学習力学を特徴付ける。
損失関数の定数方向における特別な固定点は、SGDの解の候補として現れる。
論文 参考訳(メタデータ) (2024-02-11T13:00:04Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。