論文の概要: Stochastic gradient descent with noise of machine learning type. Part I:
Discrete time analysis
- arxiv url: http://arxiv.org/abs/2105.01650v1
- Date: Tue, 4 May 2021 17:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 13:03:07.355980
- Title: Stochastic gradient descent with noise of machine learning type. Part I:
Discrete time analysis
- Title(参考訳): 機械学習型雑音を伴う確率的勾配降下
第1部:離散時間分析
- Authors: Stephan Wojtowytsch
- Abstract要約: 勾配降下(SGD)は、現代の機械学習で最も人気のあるアルゴリズムの1つです。
本稿では,エネルギランドスケープの一般的な性質と,機械学習問題で発生するノイズについて論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is one of the most popular algorithms in
modern machine learning. The noise encountered in these applications is
different from that in many theoretical analyses of stochastic gradient
algorithms. In this article, we discuss some of the common properties of energy
landscapes and stochastic noise encountered in machine learning problems, and
how they affect SGD-based optimization.
In particular, we show that the learning rate in SGD with machine learning
noise can be chosen to be small, but uniformly positive for all times if the
energy landscape resembles that of overparametrized deep learning problems. If
the objective function satisfies a Lojasiewicz inequality, SGD converges to the
global minimum exponentially fast, and even for functions which may have local
minima, we establish almost sure convergence to the global minimum at an
exponential rate from any finite energy initialization. The assumptions that we
make in this result concern the behavior where the objective function is either
small or large and the nature of the gradient noise, but the energy landscape
is fairly unconstrained on the domain where the objective function takes values
in an intermediate regime.
- Abstract(参考訳): 確率勾配降下(SGD)は、現代の機械学習において最も一般的なアルゴリズムの1つである。
これらの応用で発生するノイズは、確率的勾配アルゴリズムの多くの理論解析と異なる。
本稿では,機械学習問題に遭遇するエネルギー環境と確率ノイズの共通特性と,sgdに基づく最適化にどのように影響するかについて述べる。
特に,sgdと機械学習ノイズの学習率は小さいが,エネルギー環境が過パラメータの深層学習問題に類似している場合,常に均一に正であることが示された。
目的関数がロジャシエヴィチの不等式を満たすなら、SGD は指数関数的に大域最小値に収束し、局所最小値を持つ関数に対しても、任意の有限エネルギー初期化から指数速度で大域最小値にほぼ確実に収束する。
この結果から, 対象関数が小さいか大きいか, 勾配雑音の性質が関係するが, 対象関数が中間状態の値を取る領域では, エネルギーランドスケープは比較的制約されない。
関連論文リスト
- Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning [0.0]
決定論的および勾配降下の両方に対して動的に安定かつ不安定な大域的ミニマを特徴づける。
特に、大域的最小値周辺の局所力学に依存する特徴的リアプノフ指数を導入する。
論文 参考訳(メタデータ) (2024-07-29T17:40:04Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Theoretical Properties of Noise Correlation in Stochastic
Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。
これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文 参考訳(メタデータ) (2022-09-19T16:32:22Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Gradient flows and randomised thresholding: sparse inversion and
classification [0.0]
スパースインバージョンと分類問題は、現代のデータサイエンスとイメージングにおいて至るところに存在している。
分類において、例えば、データの忠実度項と非滑らかなギンズバーグ-ランダウエネルギーの和を考える。
標準(サブ)勾配降下法はそのような問題にアプローチする際に非効率であることが示されている。
論文 参考訳(メタデータ) (2022-03-22T09:21:14Z) - Stochastic gradient descent with noise of machine learning type. Part
II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文 参考訳(メタデータ) (2021-06-04T16:34:32Z) - Combining resampling and reweighting for faithful stochastic
optimization [1.52292571922932]
損失関数が複数の項の和であるとき、一般的な方法は勾配降下である。
損失関数における複数の項のリプシッツ定数の差は、異なる最小値における異なる分散への勾配降下を引き起こすことを示す。
論文 参考訳(メタデータ) (2021-05-31T04:21:25Z) - Why Do Local Methods Solve Nonconvex Problems? [54.284687261929115]
非使用最適化は、現代の機械学習においてユビキタスである。
機械学習問題の場合、厳格に定式化します。
我々はこの現象の統一的な説明を仮定する。
論文 参考訳(メタデータ) (2021-03-24T19:34:11Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。