論文の概要: A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks
- arxiv url: http://arxiv.org/abs/2305.12125v1
- Date: Sat, 20 May 2023 07:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:25:30.171988
- Title: A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks
- Title(参考訳): ディープフィードフォワードネットワークの安定かつ一貫性のあるトレーニングのためのフレームワーク
- Authors: Arunselvan Ramaswamy, Shalabh Bhatnagar, Naman Saxena
- Abstract要約: 本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
- 参考スコア(独自算出の注目度): 4.21061712600981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel algorithm for training deep neural networks in supervised
(classification and regression) and unsupervised (reinforcement learning)
scenarios. This algorithm combines the standard stochastic gradient descent and
the gradient clipping method. The output layer is updated using clipped
gradients, the rest of the neural network is updated using standard gradients.
Updating the output layer using clipped gradient stabilizes it. We show that
the remaining layers are automatically stabilized provided the neural network
is only composed of squashing (compact range) activations. We also present a
novel squashing activation function - it is obtained by modifying a Gaussian
Error Linear Unit (GELU) to have compact range - we call it Truncated GELU
(tGELU). Unlike other squashing activations, such as sigmoid, the range of
tGELU can be explicitly specified. As a consequence, the problem of vanishing
gradients that arise due to a small range, e.g., in the case of a sigmoid
activation, is eliminated. We prove that a NN composed of squashing activations
(tGELU, sigmoid, etc.), when updated using the algorithm presented herein, is
numerically stable and has consistent performance (low variance). The theory is
supported by extensive experiments. Within reinforcement learning, as a
consequence of our study, we show that target networks in Deep Q-Learning can
be omitted, greatly speeding up learning and alleviating memory requirements.
Cross-entropy based classification algorithms that suffer from high variance
issues are more consistent when trained using our framework. One symptom of
numerical instability in training is the high variance of the neural network
update values. We show, in theory and through experiments, that our algorithm
updates have low variance, and the training loss reduces in a smooth manner.
- Abstract(参考訳): 本稿では,教師付き(分類と回帰)シナリオと教師なし(強化学習)シナリオでディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準確率勾配降下法と勾配クリッピング法を組み合わせたものである。
出力層はクリップされた勾配で更新され、残りのニューラルネットワークは標準的な勾配で更新される。
クリップ勾配を用いて出力層を更新すると安定化する。
ニューラルネットワークがスカッシュ (compact range) アクティベーションのみで構成されている場合, 残りのレイヤが自動的に安定化されることを示す。
また, ガウス誤差線形単位 (gelu) をコンパクトな範囲に修正し, 切断ゲル (tgelu) と呼ぶ新しいスカッシュ活性化関数を提案する。
sigmoidのような他のスカッシングアクティベーションとは異なり、tGELUの範囲は明示的に指定できる。
その結果、例えばシグモイドの活性化の場合のような、小さな範囲で生じる勾配の消失問題は排除される。
本稿では,このアルゴリズムを用いて更新されたsgmoid,tgelu等からなるnnが数値的に安定であり,一貫性のある性能(低分散)を持つことを示す。
この理論は広範な実験によって支持されている。
強化学習において,本研究では,深層q学習におけるターゲットネットワークを省略し,学習の高速化とメモリ要求の軽減を図る。
高分散問題に苦しむクロスエントロピーに基づく分類アルゴリズムは、我々のフレームワークを用いてトレーニングした場合、より一貫性がある。
トレーニングにおける数値的不安定の症状の1つは、ニューラルネットワークの更新値の高ばらつきである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
関連論文リスト
- Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - An Experimental Comparison Between Temporal Difference and Residual
Gradient with Neural Network Approximation [8.166265682999482]
ニューラルネットワーク近似を用いた深部Q-ラーニングでは、ベルマン残差最小化問題を解くために勾配降下がほとんど使われない。
本研究では,時間差(TD)が勾配降下(RG)より優れていることを示すため,広範な実験を行う。
また、TDの欠落項が、RGが著しく機能する鍵となる理由であることも実証的に検証する。
論文 参考訳(メタデータ) (2022-05-25T13:37:52Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - Superpolynomial Lower Bounds for Learning One-Layer Neural Networks
using Gradient Descent [25.589302381660453]
また,2乗空間分布に対する勾配勾配勾配を用いた場合,時間的誤差が小さいことを示す。
分類では,任意の統計的クエリ(SQ)が時間内に小さなテストエラーを達成できないという,より強力な結果が得られる。
論文 参考訳(メタデータ) (2020-06-22T05:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。