論文の概要: A Random Matrix Theory Approach to Damping in Deep Learning
- arxiv url: http://arxiv.org/abs/2011.08181v5
- Date: Wed, 16 Mar 2022 15:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:05:44.145283
- Title: A Random Matrix Theory Approach to Damping in Deep Learning
- Title(参考訳): 深層学習におけるダンピングに対するランダム行列理論のアプローチ
- Authors: Diego Granziol, Nicholas Baskerville
- Abstract要約: 深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conjecture that the inherent difference in generalisation between adaptive
and non-adaptive gradient methods in deep learning stems from the increased
estimation noise in the flattest directions of the true loss surface. We
demonstrate that typical schedules used for adaptive methods (with low
numerical stability or damping constants) serve to bias relative movement
towards flat directions relative to sharp directions, effectively amplifying
the noise-to-signal ratio and harming generalisation. We further demonstrate
that the numerical damping constant used in these methods can be decomposed
into a learning rate reduction and linear shrinkage of the estimated curvature
matrix. We then demonstrate significant generalisation improvements by
increasing the shrinkage coefficient, closing the generalisation gap entirely
in both logistic regression and several deep neural network experiments.
Extending this line further, we develop a novel random matrix theory based
damping learner for second order optimiser inspired by linear shrinkage
estimation. We experimentally demonstrate our learner to be very insensitive to
the initialised value and to allow for extremely fast convergence in
conjunction with continued stable training and competitive generalisation.
- Abstract(参考訳): 深層学習における適応勾配法と非適応勾配法の違いは、真の損失面の平坦な方向における推定ノイズの増加によるものであると推測する。
適応法(数値安定性や減衰定数が低い)に用いられる典型的なスケジュールは、鋭い方向に対して平坦な方向への相対移動をバイアスし、ノイズ対信号比を効果的に増幅し、一般化を損なう。
さらに、これらの手法で用いられる数値減衰定数は、推定曲率行列の学習率の減少と線形縮小に分解できることを示した。
次に,縮小係数を増加させ,ロジスティック回帰といくつかのディープニューラルネットワーク実験の両方において,一般化ギャップを完全に閉じることで,大きな一般化改善を示す。
このラインをさらに拡張し,線形収縮推定に触発された2次オプティマイザーのためのランダム行列理論に基づくダンピング学習器を開発した。
我々は,学習者が初期値に非常に敏感であることを実験的に証明し,継続的な安定トレーニングと競争一般化と合わせて極めて高速な収束を可能にする。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Hebbian learning inspired estimation of the linear regression parameters
from queries [18.374824005225186]
本稿では,線形回帰モデルにおける回帰ベクトルを復元するために,このヘビアン学習規則のバリエーションについて検討する。
我々は,このヘビアン学習規則が,データとは独立にクエリを選択する非適応的手法よりもはるかに高速に実行可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T19:00:32Z) - Iterative regularization in classification via hinge loss diagonal descent [12.684351703991965]
反復正規化(英: Iterative regularization)は、最近機械学習で人気になった正規化理論における古典的な考え方である。
本稿では,分類の文脈における反復正則化に着目した。
論文 参考訳(メタデータ) (2022-12-24T07:15:26Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - From inexact optimization to learning via gradient concentration [22.152317081922437]
本稿では,滑らかな損失関数を持つ線形モデルの文脈における現象について検討する。
本稿では、不正確な最適化と確率論、特に勾配集中のアイデアを組み合わせた証明手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T21:23:29Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。