論文の概要: A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions
- arxiv url: http://arxiv.org/abs/2102.09924v1
- Date: Fri, 19 Feb 2021 13:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:16:36.747269
- Title: A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions
- Title(参考訳): 一定の目標関数に対する人工ニューラルネットワークの訓練における勾配降下の収束の証明
- Authors: Patrick Cheridito, Arnulf Jentzen, Adrian Riekert, Florian Rossmannek
- Abstract要約: 勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
- 参考スコア(独自算出の注目度): 3.4792548480344254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent optimization algorithms are the standard ingredients that
are used to train artificial neural networks (ANNs). Even though a huge number
of numerical simulations indicate that gradient descent optimization methods do
indeed convergence in the training of ANNs, until today there is no rigorous
theoretical analysis which proves (or disproves) this conjecture. In
particular, even in the case of the most basic variant of gradient descent
optimization algorithms, the plain vanilla gradient descent method, it remains
an open problem to prove or disprove the conjecture that gradient descent
converges in the training of ANNs. In this article we solve this problem in the
special situation where the target function under consideration is a constant
function. More specifically, in the case of constant target functions we prove
in the training of rectified fully-connected feedforward ANNs with one-hidden
layer that the risk function of the gradient descent method does indeed
converge to zero. Our mathematical analysis strongly exploits the property that
the rectifier function is the activation function used in the considered ANNs.
A key contribution of this work is to explicitly specify a Lyapunov function
for the gradient flow system of the ANN parameters. This Lyapunov function is
the central tool in our convergence proof of the gradient descent method.
- Abstract(参考訳): 勾配降下最適化アルゴリズムは、ニューラルネットワーク(ANN)のトレーニングに使用される標準成分である。
多くの数値シミュレーションは、勾配降下最適化法がアンの訓練において実際に収束することを示しているが、今日までこの予想を証明する(あるいは否定する)厳密な理論解析は存在しない。
特に、グラデーション降下最適化アルゴリズムの最も基本的な変種であるプレーンバニラ勾配降下法の場合であっても、グラデーション降下がANNの訓練に収束する予想を証明または証明するオープンな問題のままである。
この記事では、検討中のターゲット関数が一定の関数である特別な状況でこの問題を解決します。
より具体的には、一定の目標関数の場合、整流された完全連結フィードフォワードアンの訓練において、勾配降下法のリスク関数が実際にゼロに収束することを証明する。
我々の数学的解析は、整流器関数が検討されたANNで用いられる活性化関数であるという特性を強く活用する。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
このリアプノフ関数は勾配降下法の収束証明における中心的な道具である。
関連論文リスト
- Mathematical analysis of the gradients in deep learning [3.3123773366516645]
勾配関数は、コスト汎函数が連続的に微分可能なすべての開集合上のコスト汎函数の標準勾配と一致しなければならないことを示す。
一般化された勾配函数は、コスト汎函数が連続的に微分可能なすべての開集合上のコスト汎函数の標準勾配と一致しなければならない。
論文 参考訳(メタデータ) (2025-01-26T19:11:57Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Behind the Scenes of Gradient Descent: A Trajectory Analysis via Basis
Function Decomposition [4.01776052820812]
本研究は,新しい基底関数分解法を用いて勾配型アルゴリズムの解軌跡を解析する。
勾配に基づくアルゴリズムの解軌跡は学習課題によって異なるが、適切な正規関数ベースに投影された場合、ほとんど単調に振る舞う。
論文 参考訳(メタデータ) (2022-10-01T19:15:40Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions [3.198144010381572]
勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
論文 参考訳(メタデータ) (2021-08-10T12:01:37Z) - q-RBFNN:A Quantum Calculus-based RBF Neural Network [31.14412266444568]
放射状基底関数ニューラルネットワーク(RBFNN)に対する勾配降下に基づく学習手法を提案する。
提案手法は、ジャクソン微分(Jackson derivative)とも呼ばれるq勾配に基づく。
提案した$q$-RBFNNは最小二乗アルゴリズムの文脈における収束性能について解析する。
論文 参考訳(メタデータ) (2021-06-02T08:27:12Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。