論文の概要: Convergence of gradient descent for deep neural networks
- arxiv url: http://arxiv.org/abs/2203.16462v1
- Date: Wed, 30 Mar 2022 17:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:20:16.674876
- Title: Convergence of gradient descent for deep neural networks
- Title(参考訳): 深層ニューラルネットワークにおける勾配降下の収束
- Authors: Sourav Chatterjee
- Abstract要約: 勾配降下は「深層学習革命」の主要な要因の1つである
本稿では、勾配降下の収束の新たな基準を、大域的最小値に提示する。
- 参考スコア(独自算出の注目度): 7.360807642941713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization by gradient descent has been one of main drivers of the "deep
learning revolution". Yet, despite some recent progress for extremely wide
networks, it remains an open problem to understand why gradient descent often
converges to global minima when training deep neural networks. This article
presents a new criterion for convergence of gradient descent to a global
minimum, which is provably more powerful than the best available criteria from
the literature, namely, the Lojasiewicz inequality and its generalizations.
This criterion is used to show that gradient descent with proper initialization
converges to a global minimum when training any feedforward neural network with
smooth and strictly increasing activation functions, provided that the input
dimension is greater than or equal to the number of data points.
- Abstract(参考訳): 勾配降下による最適化は、"deep learning revolution"の原動力となっている。
しかし、非常に広いネットワークでの最近の進歩にもかかわらず、深層ニューラルネットワークのトレーニングにおいて勾配降下がグローバルミニマに収束する理由を理解することは、まだ未解決の問題である。
本稿では,文献から得られる最善の基準,すなわちロジャシェヴィッツの不等式とその一般化よりも強力な,勾配降下のグローバル最小値への収束に関する新たな基準について述べる。
この基準は、入力次元がデータ点数より大きいと仮定して、スムーズで厳密に増加する活性化関数を持つフィードフォワードニューラルネットワークを訓練する際に、適切な初期化による勾配降下が大域最小に収束することを示すために用いられる。
関連論文リスト
- Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks [0.2302001830524133]
我々は、クリッピング勾配アルゴリズムの正規化形式をインスタンス化し、ディープニューラルネットワーク損失関数の大域的最小値に収束できることを証明する。
我々は、我々の理論的に確立された正規化勾配クリッピングアルゴリズムが、最先端のディープラーニングと競合する経験的証拠を提示する。
論文 参考訳(メタデータ) (2024-04-12T17:37:42Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。