論文の概要: Maximal Initial Learning Rates in Deep ReLU Networks
- arxiv url: http://arxiv.org/abs/2212.07295v2
- Date: Fri, 26 May 2023 01:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:10:12.553158
- Title: Maximal Initial Learning Rates in Deep ReLU Networks
- Title(参考訳): 深部ReLUネットワークにおける最大初期学習率
- Authors: Gaurav Iyer, Boris Hanin, David Rolnick
- Abstract要約: 最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
- 参考スコア(独自算出の注目度): 32.157430904535126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a neural network requires choosing a suitable learning rate, which
involves a trade-off between speed and effectiveness of convergence. While
there has been considerable theoretical and empirical analysis of how large the
learning rate can be, most prior work focuses only on late-stage training. In
this work, we introduce the maximal initial learning rate $\eta^{\ast}$ - the
largest learning rate at which a randomly initialized neural network can
successfully begin training and achieve (at least) a given threshold accuracy.
Using a simple approach to estimate $\eta^{\ast}$, we observe that in
constant-width fully-connected ReLU networks, $\eta^{\ast}$ behaves differently
from the maximum learning rate later in training. Specifically, we find that
$\eta^{\ast}$ is well predicted as a power of depth $\times$ width, provided
that (i) the width of the network is sufficiently large compared to the depth,
and (ii) the input layer is trained at a relatively small learning rate. We
further analyze the relationship between $\eta^{\ast}$ and the sharpness
$\lambda_{1}$ of the network at initialization, indicating they are closely
though not inversely related. We formally prove bounds for $\lambda_{1}$ in
terms of depth $\times$ width that align with our empirical results.
- Abstract(参考訳): ニューラルネットワークのトレーニングには、速度と収束の有効性のトレードオフを伴う適切な学習率を選択する必要がある。
学習率の程度については理論上、実証的な分析がなされているが、ほとんどの先行研究は後期段階のトレーニングのみに焦点を当てている。
本研究では,ランダム初期化ニューラルネットワークの学習に成功し,与えられた閾値精度を(少なくとも)達成できる最大学習率である最大初期学習率$\eta^{\ast}$を導入する。
簡単なアプローチで$\eta^{\ast}$を推定すると、一定の幅の完全接続されたReLUネットワークでは、$\eta^{\ast}$はトレーニング後の最大学習率と異なる振る舞いをする。
具体的には、$\eta^{\ast}$は深さ$\times$ widthのパワーとしてよく予測される。
(i)奥行きに比べてネットワーク幅が十分大きいこと、
(ii)入力層は比較的少ない学習率で訓練される。
さらに、初期化時のネットワークの$\eta^{\ast}$とシャープ性$\lambda_{1}$の関係を解析し、それらは逆関係ではないことを示唆する。
私たちは、経験的な結果に合致した深さ$\times$ widthで、$\lambda_{1}$の境界を正式に証明します。
関連論文リスト
- The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。
そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文 参考訳(メタデータ) (2023-07-24T00:16:50Z) - Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training [0.0]
パラメータが$n=1014$を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$の振る舞いを研究することが極めて重要である。
広義のニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$nから+infty$制限に焦点を当てている。
この研究では、それらの振る舞いを大まかに研究するが、有限$n$である。
論文 参考訳(メタデータ) (2023-04-06T21:34:13Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。
とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文 参考訳(メタデータ) (2020-03-30T12:03:09Z) - Taylorized Training: Towards Better Approximation of Neural Network
Training at Finite Width [116.69845849754186]
Taylorized Trainingは、ニューラルネットワークの$k$-orderTaylor拡張をトレーニングする。
我々は、Taylorized Trainingが完全なニューラルネットワークトレーニングに同意していることを示します。
本実験は, 広帯域ニューラルネットワークにおいて, 近似誤差$k$-階Taylorized Modelが指数関数的に$k$以上減衰することを示す理論的結果と相補する。
論文 参考訳(メタデータ) (2020-02-10T18:37:04Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。