論文の概要: Non-convergence of stochastic gradient descent in the training of deep
neural networks
- arxiv url: http://arxiv.org/abs/2006.07075v2
- Date: Fri, 29 Jan 2021 08:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:33:54.208492
- Title: Non-convergence of stochastic gradient descent in the training of deep
neural networks
- Title(参考訳): 深部ニューラルネットワークのトレーニングにおける確率勾配降下の非収束性
- Authors: Patrick Cheridito, Arnulf Jentzen, Florian Rossmannek
- Abstract要約: ディープニューラルネットワークは、勾配降下を伴う様々な応用領域でうまく訓練されている。
勾配降下は、深さが幅よりもはるかに大きい場合、ReLUネットワークに対して収束しない。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have successfully been trained in various application
areas with stochastic gradient descent. However, there exists no rigorous
mathematical explanation why this works so well. The training of neural
networks with stochastic gradient descent has four different discretization
parameters: (i) the network architecture; (ii) the amount of training data;
(iii) the number of gradient steps; and (iv) the number of randomly initialized
gradient trajectories. While it can be shown that the approximation error
converges to zero if all four parameters are sent to infinity in the right
order, we demonstrate in this paper that stochastic gradient descent fails to
converge for ReLU networks if their depth is much larger than their width and
the number of random initializations does not increase to infinity fast enough.
- Abstract(参考訳): ディープニューラルネットワークは確率勾配降下を伴う様々な応用領域で訓練されている。
しかし、なぜこれがうまく機能するのかの厳密な数学的説明は存在しない。
確率勾配勾配勾配を持つニューラルネットワークのトレーニングには、4つの異なる離散化パラメータがある。
(i)ネットワークアーキテクチャ
二 訓練データの量
(iii)傾斜段数、及び
(iv)ランダムに初期化された勾配軌道の数。
4つのパラメータがすべて正しい順序で無限大に送られると近似誤差がゼロに収束することを示すことができるが、本論文では、その深さがその幅よりも大きくランダム初期化の数が十分速くならない場合に、確率的勾配降下がreluネットワークに対して収束しないことを示す。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Limitations of neural network training due to numerical instability of
backpropagation [2.255961793913651]
本研究では,浮動小数点算術を用いて勾配を計算する勾配勾配降下による深層ニューラルネットワークの訓練について検討する。
勾配降下によるトレーニングの過程で、層数に関して超直線的に多くのアフィンピースを維持できるReLUニューラルネットワークを見つける可能性は極めて低い。
我々は,ReLUニューラルネットワークの勾配降下による近似列が理論的に構築された配列と大きく異なることを結論付けた。
論文 参考訳(メタデータ) (2022-10-03T10:34:38Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。