論文の概要: Limitations of neural network training due to numerical instability of
backpropagation
- arxiv url: http://arxiv.org/abs/2210.00805v4
- Date: Wed, 15 Nov 2023 18:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 21:16:45.657766
- Title: Limitations of neural network training due to numerical instability of
backpropagation
- Title(参考訳): バックプロパゲーションの数値不安定性によるニューラルネットワークトレーニングの限界
- Authors: Clemens Karner, Vladimir Kazeev, Philipp Christian Petersen
- Abstract要約: 本研究では,浮動小数点算術を用いて勾配を計算する勾配勾配降下による深層ニューラルネットワークの訓練について検討する。
勾配降下によるトレーニングの過程で、層数に関して超直線的に多くのアフィンピースを維持できるReLUニューラルネットワークを見つける可能性は極めて低い。
我々は,ReLUニューラルネットワークの勾配降下による近似列が理論的に構築された配列と大きく異なることを結論付けた。
- 参考スコア(独自算出の注目度): 2.255961793913651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the training of deep neural networks by gradient descent where
floating-point arithmetic is used to compute the gradients. In this framework
and under realistic assumptions, we demonstrate that it is highly unlikely to
find ReLU neural networks that maintain, in the course of training with
gradient descent, superlinearly many affine pieces with respect to their number
of layers. In virtually all approximation theoretical arguments that yield
high-order polynomial rates of approximation, sequences of ReLU neural networks
with exponentially many affine pieces compared to their numbers of layers are
used. As a consequence, we conclude that approximating sequences of ReLU neural
networks resulting from gradient descent in practice differ substantially from
theoretically constructed sequences. The assumptions and the theoretical
results are compared to a numerical study, which yields concurring results.
- Abstract(参考訳): 本研究では,浮動小数点演算を用いた勾配降下による深層ニューラルネットワークの学習について検討する。
この枠組みと現実的な仮定の下では、階層数に対して超直線的に多くのアフィン片を持つ勾配降下学習において、ReLUニューラルネットワークを見つけることは極めて不可能であることを示す。
近似の高階多項式率をもたらす事実上全ての近似理論の議論では、その層数に比べて指数関数的に多くのアフィンピースを持つreluニューラルネットワークのシーケンスが用いられる。
その結果,ReLUニューラルネットワークの勾配降下による近似列は理論的に構築された配列と大きく異なることがわかった。
仮定と理論的結果は、連続的な結果をもたらす数値的研究と比較される。
関連論文リスト
- Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Towards a mathematical framework to inform Neural Network modelling via
Polynomial Regression [0.0]
特定の条件が局所的に満たされた場合、ほぼ同一の予測が可能であることが示されている。
生成したデータから学習すると,そのデータを局所的に近似的に生成する。
論文 参考訳(メタデータ) (2021-02-07T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。