論文の概要: Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training
- arxiv url: http://arxiv.org/abs/2006.09092v6
- Date: Fri, 5 Nov 2021 09:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:29:17.639739
- Title: Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training
- Title(参考訳): バッチサイズ関数としての学習率:ニューラルネットワーク学習におけるランダム行列理論アプローチ
- Authors: Diego Granziol, Stefan Zohren, Stephen Roberts
- Abstract要約: スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
- 参考スコア(独自算出の注目度): 2.9649783577150837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of mini-batching on the loss landscape of deep neural
networks using spiked, field-dependent random matrix theory. We demonstrate
that the magnitude of the extremal values of the batch Hessian are larger than
those of the empirical Hessian. We also derive similar results for the
Generalised Gauss-Newton matrix approximation of the Hessian. As a consequence
of our theorems we derive an analytical expressions for the maximal learning
rates as a function of batch size, informing practical training regimens for
both stochastic gradient descent (linear scaling) and adaptive algorithms, such
as Adam (square root scaling), for smooth, non-convex deep neural networks.
Whilst the linear scaling for stochastic gradient descent has been derived
under more restrictive conditions, which we generalise, the square root scaling
rule for adaptive optimisers is, to our knowledge, completely novel. %For
stochastic second-order methods and adaptive methods, we derive that the
minimal damping coefficient is proportional to the ratio of the learning rate
to batch size. We validate our claims on the VGG/WideResNet architectures on
the CIFAR-$100$ and ImageNet datasets. Based on our investigations of the
sub-sampled Hessian we develop a stochastic Lanczos quadrature based on the fly
learning rate and momentum learner, which avoids the need for expensive
multiple evaluations for these key hyper-parameters and shows good preliminary
results on the Pre-Residual Architecure for CIFAR-$100$.
- Abstract(参考訳): スパイク場依存ランダム行列理論を用いた深層ニューラルネットワークの損失景観に及ぼすミニバッチの効果について検討した。
我々は,バッチヘッセンの極値の大きさが経験的ヘッセンのそれよりも大きいことを示した。
また、ヘッセンの一般化ガウス-ニュートン行列近似についても同様の結果を得る。
この定理の結果として、バッチサイズの関数として最大学習率の解析式が導出され、スムーズで非凸なディープニューラルネットワークのためのAdam(平方根スケーリング)のような確率勾配降下(線形スケーリング)と適応アルゴリズムの両方の実践的な訓練規則が示される。
確率勾配勾配の線形スケーリングは、より制限的な条件下で導出されてきたが、適応オプティマイザの平方根スケーリング規則は、我々の知る限り、全く新しいものである。
%の確率的二階法と適応法において,最小減衰係数は学習率とバッチサイズとの比率に比例することがわかった。
我々は、CIFAR-$100$およびImageNetデータセット上のVGG/WideResNetアーキテクチャに関する主張を検証する。
本研究は,ハエの学習速度と運動量学習者に基づく確率的ランツォス二次構造を開発し,これらの重要パラメータに対する高価な複数評価の必要性を回避し,CIFAR-100ドルのプレレジデンシャルアーカイトキュアにおいて良好な予備結果を示す。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - On the Impact of Overparameterization on the Training of a Shallow
Neural Network in High Dimensions [0.0]
本研究では,2次活性化関数と2次コストを持つ浅部ニューラルネットワークのトレーニングダイナミクスについて検討する。
同じニューラルアーキテクチャに関する以前の研究と並行して、集団リスクの勾配流に従って最適化を行う。
論文 参考訳(メタデータ) (2023-11-07T08:20:31Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - On Excess Risk Convergence Rates of Neural Network Classifiers [8.329456268842227]
本稿では,ニューラルネットワークを用いた2値分類におけるプラグイン分類器の性能を,その過大なリスクによって測定した。
ニューラルネットワークの推定と近似特性を分析し,次元自由で均一な収束率を求める。
論文 参考訳(メタデータ) (2023-09-26T17:14:10Z) - On the optimization and pruning for Bayesian deep learning [1.0152838128195467]
重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。
EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。
我々の密度モデルは最先端の性能に到達でき、スパースモデルは以前提案したプルーニング方式と比較して非常によく機能する。
論文 参考訳(メタデータ) (2022-10-24T05:18:08Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Stochastic gradient descent with random learning rate [0.0]
本稿では,一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。
ランダムな学習率プロトコルを周期的および定常的なプロトコルと比較することにより、ランダムな選択は、一般に小規模学習率体系における最良の戦略であると示唆する。
我々は、MNISTデータセットとCIFAR10データセットの画像分類のための、浅い、完全に接続された、深い、畳み込みニューラルネットワークの実験を通じて、支持エビデンスを提供する。
論文 参考訳(メタデータ) (2020-03-15T21:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。