論文の概要: The effective noise of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2112.10852v1
- Date: Mon, 20 Dec 2021 20:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:21:56.355291
- Title: The effective noise of Stochastic Gradient Descent
- Title(参考訳): 確率的グラディエントDescenceの有効雑音
- Authors: Francesca Mignacco, Pierfrancesco Urbani
- Abstract要約: Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
- 参考スコア(独自算出の注目度): 9.645196221785694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) is the workhorse algorithm of deep learning
technology. At each step of the training phase, a mini batch of samples is
drawn from the training dataset and the weights of the neural network are
adjusted according to the performance on this specific subset of examples. The
mini-batch sampling procedure introduces a stochastic dynamics to the gradient
descent, with a non-trivial state-dependent noise. We characterize the
stochasticity of SGD and a recently-introduced variant, persistent SGD, in a
prototypical neural network model. In the under-parametrized regime, where the
final training error is positive, the SGD dynamics reaches a stationary state
and we define an effective temperature from the fluctuation-dissipation
theorem, computed from dynamical mean-field theory. We use the effective
temperature to quantify the magnitude of the SGD noise as a function of the
problem parameters. In the over-parametrized regime, where the training error
vanishes, we measure the noise magnitude of SGD by computing the average
distance between two replicas of the system with the same initialization and
two different realizations of SGD noise. We find that the two noise measures
behave similarly as a function of the problem parameters. Moreover, we observe
that noisier algorithms lead to wider decision boundaries of the corresponding
constraint satisfaction problem.
- Abstract(参考訳): Stochastic Gradient Descent (SGD)は、ディープラーニング技術のワークホースアルゴリズムである。
トレーニングフェーズの各ステップでは、トレーニングデータセットからサンプルのミニバッチを描画し、この特定のサブセットのパフォーマンスに応じてニューラルネットワークの重みを調整する。
ミニバッチサンプリング手順は、非自明な状態依存ノイズを伴う勾配降下に対する確率力学を導入する。
我々はSGDの確率性と最近導入された変種である持続型SGDを原型ニューラルネットワークモデルで特徴付ける。
最終学習誤差が正となる過度パラメータ化状態において,SGD力学は定常状態に達し,動的平均場理論から計算した揺動散逸定理から有効温度を定義する。
有効温度を用いて,SGD雑音の大きさを問題パラメータの関数として定量化する。
学習誤差が消失する過パラメータ方式では、同一初期化を持つシステムの2つのレプリカの平均距離と2つの異なるsgdノイズの実現を計算し、sgdのノイズの大きさを測定する。
その結果、2つのノイズ測度は問題パラメータの関数として同じように振る舞うことがわかった。
さらに,noisierアルゴリズムは制約満足度問題に対するより広い決定境界をもたらすことを観測した。
関連論文リスト
- Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Stochastic Gradient Langevin Dynamics Based on Quantization with
Increasing Resolution [0.0]
非目的関数に対する量子化最適化に基づく代替的な降下学習方程式を提案する。
本稿では,バニラニューラル畳み込みニューラル(CNN)モデルにおける提案手法の有効性と各種データセット間のアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2023-05-30T08:55:59Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic gradient descent with noise of machine learning type. Part
II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文 参考訳(メタデータ) (2021-06-04T16:34:32Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。