論文の概要: A Random Matrix Theory Approach to Damping in Deep Learning
- arxiv url: http://arxiv.org/abs/2011.08181v5
- Date: Wed, 16 Mar 2022 15:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:05:44.145283
- Title: A Random Matrix Theory Approach to Damping in Deep Learning
- Title(参考訳): 深層学習におけるダンピングに対するランダム行列理論のアプローチ
- Authors: Diego Granziol, Nicholas Baskerville
- Abstract要約: 深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conjecture that the inherent difference in generalisation between adaptive
and non-adaptive gradient methods in deep learning stems from the increased
estimation noise in the flattest directions of the true loss surface. We
demonstrate that typical schedules used for adaptive methods (with low
numerical stability or damping constants) serve to bias relative movement
towards flat directions relative to sharp directions, effectively amplifying
the noise-to-signal ratio and harming generalisation. We further demonstrate
that the numerical damping constant used in these methods can be decomposed
into a learning rate reduction and linear shrinkage of the estimated curvature
matrix. We then demonstrate significant generalisation improvements by
increasing the shrinkage coefficient, closing the generalisation gap entirely
in both logistic regression and several deep neural network experiments.
Extending this line further, we develop a novel random matrix theory based
damping learner for second order optimiser inspired by linear shrinkage
estimation. We experimentally demonstrate our learner to be very insensitive to
the initialised value and to allow for extremely fast convergence in
conjunction with continued stable training and competitive generalisation.
- Abstract(参考訳): 深層学習における適応勾配法と非適応勾配法の違いは、真の損失面の平坦な方向における推定ノイズの増加によるものであると推測する。
適応法(数値安定性や減衰定数が低い)に用いられる典型的なスケジュールは、鋭い方向に対して平坦な方向への相対移動をバイアスし、ノイズ対信号比を効果的に増幅し、一般化を損なう。
さらに、これらの手法で用いられる数値減衰定数は、推定曲率行列の学習率の減少と線形縮小に分解できることを示した。
次に,縮小係数を増加させ,ロジスティック回帰といくつかのディープニューラルネットワーク実験の両方において,一般化ギャップを完全に閉じることで,大きな一般化改善を示す。
このラインをさらに拡張し,線形収縮推定に触発された2次オプティマイザーのためのランダム行列理論に基づくダンピング学習器を開発した。
我々は,学習者が初期値に非常に敏感であることを実験的に証明し,継続的な安定トレーニングと競争一般化と合わせて極めて高速な収束を可能にする。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Hebbian learning inspired estimation of the linear regression parameters
from queries [18.374824005225186]
本稿では,線形回帰モデルにおける回帰ベクトルを復元するために,このヘビアン学習規則のバリエーションについて検討する。
我々は,このヘビアン学習規則が,データとは独立にクエリを選択する非適応的手法よりもはるかに高速に実行可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T19:00:32Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Towards Understanding Generalization via Decomposing Excess Risk
Dynamics [13.4379473119565]
一般化力学を解析してアルゴリズム依存境界(安定性など)を導出する。
ニューラルネットは、ノイズの嵌合時に緩やかな収束率を示すという観測から着想を得て、余剰リスクダイナミクスを分解することを提案する。
分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
論文 参考訳(メタデータ) (2021-06-11T03:42:45Z) - From inexact optimization to learning via gradient concentration [22.152317081922437]
本稿では,滑らかな損失関数を持つ線形モデルの文脈における現象について検討する。
本稿では、不正確な最適化と確率論、特に勾配集中のアイデアを組み合わせた証明手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T21:23:29Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。