論文の概要: Convergence analysis for gradient flows in the training of artificial
neural networks with ReLU activation
- arxiv url: http://arxiv.org/abs/2107.04479v1
- Date: Fri, 9 Jul 2021 15:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:33:12.756486
- Title: Convergence analysis for gradient flows in the training of artificial
neural networks with ReLU activation
- Title(参考訳): ReLUアクティベーションを用いたニューラルネットワークのトレーニングにおける勾配流の収束解析
- Authors: Arnulf Jentzen and Adrian Riekert
- Abstract要約: 勾配降下(GD)型最適化スキームは、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な方法である。
ReLUアクティベーションを持つANNのトレーニングにおけるGD型最適化スキームの数学的収束解析における主な困難は、すでに対応するGF微分方程式の力学に存在しているようである。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent (GD) type optimization schemes are the standard methods to
train artificial neural networks (ANNs) with rectified linear unit (ReLU)
activation. Such schemes can be considered as discretizations of gradient flows
(GFs) associated to the training of ANNs with ReLU activation and most of the
key difficulties in the mathematical convergence analysis of GD type
optimization schemes in the training of ANNs with ReLU activation seem to be
already present in the dynamics of the corresponding GF differential equations.
It is the key subject of this work to analyze such GF differential equations in
the training of ANNs with ReLU activation and three layers (one input layer,
one hidden layer, and one output layer). In particular, in this article we
prove in the case where the target function is possibly multi-dimensional and
continuous and in the case where the probability distribution of the input data
is absolutely continuous with respect to the Lebesgue measure that the risk of
every bounded GF trajectory converges to the risk of a critical point. In
addition, in this article we show in the case of a 1-dimensional affine linear
target function and in the case where the probability distribution of the input
data coincides with the standard uniform distribution that the risk of every
bounded GF trajectory converges to zero if the initial risk is sufficiently
small. Finally, in the special situation where there is only one neuron on the
hidden layer (1-dimensional hidden layer) we strengthen the above named result
for affine linear target functions by proving that that the risk of every (not
necessarily bounded) GF trajectory converges to zero if the initial risk is
sufficiently small.
- Abstract(参考訳): 勾配降下(GD)型最適化スキームは、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な方法である。
このようなスキームは、ReLU アクティベーションを持つ ANN のトレーニングに関連する勾配流(GF)の離散化と、ReLU アクティベーションを持つ ANN のトレーニングにおける GD 型最適化スキームの数学的収束解析におけるほとんどの重要な困難が、対応する GF 微分方程式の力学に既に存在していると考えられる。
この研究は、ReLUアクティベーションと3つの層(入力層1つ、隠蔽層1つ、出力層1つ)を持つANNのトレーニングにおいて、そのようなGF微分方程式を分析する上で重要な課題である。
特に、本論文では、対象関数が多次元かつ連続な場合と、入力データの確率分布がルベーグ測度に対して絶対連続である場合において、すべての有界GF軌道のリスクが臨界点のリスクに収束することを証明する。
さらに,本論文では, 1次元アフィン線形対象関数の場合と, 入力データの確率分布が標準均一分布と一致する場合において, 初期リスクが十分に小さい場合には, 有界GF軌道のリスクが0に収束することを示す。
最後に、隠れた層(1次元の隠蔽層)に1つのニューロンしか存在しない特別な状況において、初期リスクが十分に小さい場合、すべての(必ずしも有界ではない)GF軌道のリスクがゼロに収束することを証明することによって、アフィン線形対象関数に対する上記の名前付き結果を強化する。
関連論文リスト
- A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - On the existence of global minima and convergence analyses for gradient
descent methods in the training of deep neural networks [3.198144010381572]
フィードフォワード深層ReLU ANNを任意に多数の隠蔽層で研究する。
我々は,そのようなANNの訓練において,ランダムなGD最適化手法のリスクを収束させることを証明した。
また、勾配流微分方程式の解も研究する。
論文 参考訳(メタデータ) (2021-12-17T18:55:40Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Existence, uniqueness, and convergence rates for gradient flows in the
training of artificial neural networks with ReLU activation [2.4087148947930634]
勾配降下(GD)型最適化スキームによる整流線形単位(ReLU)アクティベーションを用いた人工ニューラルネットワーク(ANN)のトレーニングは、今日では産業的にも一般的な方法である。
科学文献では、ReLUアクティベーションを伴うANNのトレーニングにおいて、GD型スキームの数値的な成功を説明する数学的収束解析は一般的に存在しない。
論文 参考訳(メタデータ) (2021-08-18T12:06:19Z) - A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions [3.198144010381572]
勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
論文 参考訳(メタデータ) (2021-08-10T12:01:37Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。