Fugu-MT 論文翻訳(概要): The effective noise of Stochastic Gradient Descent

論文の概要: The effective noise of Stochastic Gradient Descent

arxiv url: http://arxiv.org/abs/2112.10852v1
Date: Mon, 20 Dec 2021 20:46:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-22 14:21:56.355291
Title: The effective noise of Stochastic Gradient Descent
Title（参考訳）: 確率的グラディエントDescenceの有効雑音
Authors: Francesca Mignacco, Pierfrancesco Urbani
Abstract要約: Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。 SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
参考スコア（独自算出の注目度）: 9.645196221785694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic Gradient Descent (SGD) is the workhorse algorithm of deep learning technology. At each step of the training phase, a mini batch of samples is drawn from the training dataset and the weights of the neural network are adjusted according to the performance on this specific subset of examples. The mini-batch sampling procedure introduces a stochastic dynamics to the gradient descent, with a non-trivial state-dependent noise. We characterize the stochasticity of SGD and a recently-introduced variant, persistent SGD, in a prototypical neural network model. In the under-parametrized regime, where the final training error is positive, the SGD dynamics reaches a stationary state and we define an effective temperature from the fluctuation-dissipation theorem, computed from dynamical mean-field theory. We use the effective temperature to quantify the magnitude of the SGD noise as a function of the problem parameters. In the over-parametrized regime, where the training error vanishes, we measure the noise magnitude of SGD by computing the average distance between two replicas of the system with the same initialization and two different realizations of SGD noise. We find that the two noise measures behave similarly as a function of the problem parameters. Moreover, we observe that noisier algorithms lead to wider decision boundaries of the corresponding constraint satisfaction problem.
Abstract（参考訳）: Stochastic Gradient Descent (SGD)は、ディープラーニング技術のワークホースアルゴリズムである。トレーニングフェーズの各ステップでは、トレーニングデータセットからサンプルのミニバッチを描画し、この特定のサブセットのパフォーマンスに応じてニューラルネットワークの重みを調整する。ミニバッチサンプリング手順は、非自明な状態依存ノイズを伴う勾配降下に対する確率力学を導入する。我々はSGDの確率性と最近導入された変種である持続型SGDを原型ニューラルネットワークモデルで特徴付ける。最終学習誤差が正となる過度パラメータ化状態において,SGD力学は定常状態に達し,動的平均場理論から計算した揺動散逸定理から有効温度を定義する。有効温度を用いて,SGD雑音の大きさを問題パラメータの関数として定量化する。学習誤差が消失する過パラメータ方式では、同一初期化を持つシステムの2つのレプリカの平均距離と2つの異なるsgdノイズの実現を計算し、sgdのノイズの大きさを測定する。その結果、2つのノイズ測度は問題パラメータの関数として同じように振る舞うことがわかった。さらに,noisierアルゴリズムは制約満足度問題に対するより広い決定境界をもたらすことを観測した。

関連論文リスト

Diffusion Models for Solving Inverse Problems via Posterior Sampling with Piecewise Guidance [52.705112811734566]
断片的なガイダンススキームを用いて,逆問題を解決するための新しい拡散型フレームワークが導入された。提案手法は問題に依存しず,様々な逆問題に容易に適応できる。このフレームワークは, (4時間), (8時間) の超分解能タスクに対して, (23%), (24%) および (24%) の無作為マスクを塗布する場合の (25%) の推論時間を短縮する。
論文参考訳（メタデータ） (2025-07-22T19:35:14Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
Noise Balance and Stationary Distribution of Stochastic Gradient Descent [10.621129623557884]
損失関数が再スケーリングパラメータ対称性を含む場合, SGD のミニバッチノイズは, 雑音平衡解に対する解を正則化することを示す。単純な拡散過程とSGD力学の違いは対称性が存在するときに最も重要であるため、この理論は損失関数対称性がSGDの働きの本質的なプローブとなることを示唆している。この結果を用いて,任意の深さと幅を持つ対角線ネットワークにおける勾配流の定常分布を導出する。
論文参考訳（メタデータ） (2023-08-13T03:13:03Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
Stochastic Gradient Langevin Dynamics Based on Quantization with Increasing Resolution [0.0]
非目的関数に対する量子化最適化に基づく代替的な降下学習方程式を提案する。本稿では,バニラニューラル畳み込みニューラル(CNN)モデルにおける提案手法の有効性と各種データセット間のアーキテクチャについて述べる。
論文参考訳（メタデータ） (2023-05-30T08:55:59Z)
Doubly Stochastic Models: Learning with Unbiased Label Noises and Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文参考訳（メタデータ） (2023-04-01T14:09:07Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文参考訳（メタデータ） (2023-02-19T15:24:37Z)
Computing the Variance of Shuffling Stochastic Gradient Algorithms via Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文参考訳（メタデータ） (2022-06-01T17:08:04Z)
Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文参考訳（メタデータ） (2021-06-04T16:34:32Z)
Noise and Fluctuation of Finite Learning Rate Stochastic Gradient Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。 SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文参考訳（メタデータ） (2020-12-07T12:31:43Z)
Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文参考訳（メタデータ） (2020-06-15T18:31:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。