論文の概要: A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions
- arxiv url: http://arxiv.org/abs/2108.04620v1
- Date: Tue, 10 Aug 2021 12:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:11:07.578071
- Title: A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions
- Title(参考訳): 分割線形目標関数に対するreluアクティベーション付きニューラルネットワークの学習におけるランダム初期化を用いた勾配降下最適化法の収束の証明
- Authors: Arnulf Jentzen, Adrian Riekert
- Abstract要約: 勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent (GD) type optimization methods are the standard instrument
to train artificial neural networks (ANNs) with rectified linear unit (ReLU)
activation. Despite the great success of GD type optimization methods in
numerical simulations for the training of ANNs with ReLU activation, it remains
- even in the simplest situation of the plain vanilla GD optimization method
with random initializations and ANNs with one hidden layer - an open problem to
prove (or disprove) the conjecture that the risk of the GD optimization method
converges in the training of such ANNs to zero as the width of the ANNs, the
number of independent random initializations, and the number of GD steps
increase to infinity. In this article we prove this conjecture in the situation
where the probability distribution of the input data is equivalent to the
continuous uniform distribution on a compact interval, where the probability
distributions for the random initializations of the ANN parameters are standard
normal distributions, and where the target function under consideration is
continuous and piecewise affine linear. Roughly speaking, the key ingredients
in our mathematical convergence analysis are (i) to prove that suitable sets of
global minima of the risk functions are \emph{twice continuously differentiable
submanifolds of the ANN parameter spaces}, (ii) to prove that the Hessians of
the risk functions on these sets of global minima satisfy an appropriate
\emph{maximal rank condition}, and, thereafter, (iii) to apply the machinery in
[Fehrman, B., Gess, B., Jentzen, A., Convergence rates for the stochastic
gradient descent method for non-convex objective functions. J. Mach. Learn.
Res. 21(136): 1--48, 2020] to establish convergence of the GD optimization
method with random initializations.
- Abstract(参考訳): 勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
Despite the great success of GD type optimization methods in numerical simulations for the training of ANNs with ReLU activation, it remains - even in the simplest situation of the plain vanilla GD optimization method with random initializations and ANNs with one hidden layer - an open problem to prove (or disprove) the conjecture that the risk of the GD optimization method converges in the training of such ANNs to zero as the width of the ANNs, the number of independent random initializations, and the number of GD steps increase to infinity.
本稿では、入力データの確率分布がコンパクト区間上の連続一様分布と等価である場合、annパラメータのランダム初期化の確率分布が標準正規分布であり、対象関数が連続かつ区分的なアフィン線型である場合において、この予想を証明する。
Roughly speaking, the key ingredients in our mathematical convergence analysis are (i) to prove that suitable sets of global minima of the risk functions are \emph{twice continuously differentiable submanifolds of the ANN parameter spaces}, (ii) to prove that the Hessians of the risk functions on these sets of global minima satisfy an appropriate \emph{maximal rank condition}, and, thereafter, (iii) to apply the machinery in [Fehrman, B., Gess, B., Jentzen, A., Convergence rates for the stochastic gradient descent method for non-convex objective functions.
J. Mach
学ぶ。
Res!
21(136): ランダム初期化によるGD最適化法の収束を確立するための1-48, 2020]。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - On the existence of global minima and convergence analyses for gradient
descent methods in the training of deep neural networks [3.198144010381572]
フィードフォワード深層ReLU ANNを任意に多数の隠蔽層で研究する。
我々は,そのようなANNの訓練において,ランダムなGD最適化手法のリスクを収束させることを証明した。
また、勾配流微分方程式の解も研究する。
論文 参考訳(メタデータ) (2021-12-17T18:55:40Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - Existence, uniqueness, and convergence rates for gradient flows in the
training of artificial neural networks with ReLU activation [2.4087148947930634]
勾配降下(GD)型最適化スキームによる整流線形単位(ReLU)アクティベーションを用いた人工ニューラルネットワーク(ANN)のトレーニングは、今日では産業的にも一般的な方法である。
科学文献では、ReLUアクティベーションを伴うANNのトレーニングにおいて、GD型スキームの数値的な成功を説明する数学的収束解析は一般的に存在しない。
論文 参考訳(メタデータ) (2021-08-18T12:06:19Z) - Convergence analysis for gradient flows in the training of artificial
neural networks with ReLU activation [3.198144010381572]
勾配降下(GD)型最適化スキームは、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な方法である。
ReLUアクティベーションを持つANNのトレーニングにおけるGD型最適化スキームの数学的収束解析における主な困難は、すでに対応するGF微分方程式の力学に存在しているようである。
論文 参考訳(メタデータ) (2021-07-09T15:08:30Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions [3.4792548480344254]
勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
論文 参考訳(メタデータ) (2021-02-19T13:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。