論文の概要: Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions
- arxiv url: http://arxiv.org/abs/2112.07369v2
- Date: Thu, 22 Jun 2023 18:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:52:31.421905
- Title: Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions
- Title(参考訳): 一定の目標関数に対するReLUアクティベーションを用いた深部ニューラルネットワークのトレーニングにおける確率勾配降下の収束証明
- Authors: Martin Hutzenthaler, Arnulf Jentzen, Katharina Pohl, Adrian Riekert,
Luca Scarpa
- Abstract要約: 勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
- 参考スコア(独自算出の注目度): 1.7149364927872015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many numerical simulations stochastic gradient descent (SGD) type
optimization methods perform very effectively in the training of deep neural
networks (DNNs) but till this day it remains an open problem of research to
provide a mathematical convergence analysis which rigorously explains the
success of SGD type optimization methods in the training of DNNs. In this work
we study SGD type optimization methods in the training of fully-connected
feedforward DNNs with rectified linear unit (ReLU) activation. We first
establish general regularity properties for the risk functions and their
generalized gradient functions appearing in the training of such DNNs and,
thereafter, we investigate the plain vanilla SGD optimization method in the
training of such DNNs under the assumption that the target function under
consideration is a constant function. Specifically, we prove under the
assumption that the learning rates (the step sizes of the SGD optimization
method) are sufficiently small but not $L^1$-summable and under the assumption
that the target function is a constant function that the expectation of the
riskof the considered SGD process converges in the training of such DNNs to
zero as the number of SGD steps increases to infinity.
- Abstract(参考訳): 多くの数値シミュレーションにおいて、確率的勾配降下(sgd)型最適化手法は深層ニューラルネットワーク(dnn)の訓練において非常に効果的であるが、今日までdnnの訓練におけるsgd型最適化手法の成功を厳密に説明する数学的収束解析を提供するための研究のオープンな課題である。
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
まず,これらのDNNのトレーニングに現れるリスク関数とその一般化された勾配関数の一般正規性特性を確立し,その後,対象関数が一定関数であることを前提として,これらのDNNのトレーニングにおけるプレーンバニラSGD最適化法を検討する。
具体的には、学習率(sgd最適化方法のステップサイズ)が十分に小さいが、$l^1$-summableでないことを仮定し、sgdプロセスのリスクの期待が、sgdステップの数が無限に増加するにつれて、そのようなdnnのトレーニングにおいて収束する一定の関数であると仮定して証明する。
関連論文リスト
- Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。
本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文 参考訳(メタデータ) (2024-10-14T14:11:37Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Existence, uniqueness, and convergence rates for gradient flows in the
training of artificial neural networks with ReLU activation [2.4087148947930634]
勾配降下(GD)型最適化スキームによる整流線形単位(ReLU)アクティベーションを用いた人工ニューラルネットワーク(ANN)のトレーニングは、今日では産業的にも一般的な方法である。
科学文献では、ReLUアクティベーションを伴うANNのトレーニングにおいて、GD型スキームの数値的な成功を説明する数学的収束解析は一般的に存在しない。
論文 参考訳(メタデータ) (2021-08-18T12:06:19Z) - A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions [3.198144010381572]
勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
論文 参考訳(メタデータ) (2021-08-10T12:01:37Z) - A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions [3.4792548480344254]
勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
論文 参考訳(メタデータ) (2021-02-19T13:33:03Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。