論文の概要: Benefit of deep learning with non-convex noisy gradient descent:
Provable excess risk bound and superiority to kernel methods
- arxiv url: http://arxiv.org/abs/2012.03224v1
- Date: Sun, 6 Dec 2020 09:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:02:14.163051
- Title: Benefit of deep learning with non-convex noisy gradient descent:
Provable excess risk bound and superiority to kernel methods
- Title(参考訳): 非凸型雑音勾配降下型深層学習の利点:過剰なリスクバウンドとカーネル法優越性
- Authors: Taiji Suzuki and Shunta Akiyama
- Abstract要約: 線形推定器は,極小値の最適値の意味で,ディープラーニングにより性能が向上することを示した。
過剰な境界はいわゆる高速学習率であり、$O境界よりも高速である。
- 参考スコア(独自算出の注目度): 41.60125423028092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing a theoretical analysis that explains why deep learning can
outperform shallow learning such as kernel methods is one of the biggest issues
in the deep learning literature. Towards answering this question, we evaluate
excess risk of a deep learning estimator trained by a noisy gradient descent
with ridge regularization on a mildly overparameterized neural network, and
discuss its superiority to a class of linear estimators that includes neural
tangent kernel approach, random feature model, other kernel methods, $k$-NN
estimator and so on. We consider a teacher-student regression model, and
eventually show that any linear estimator can be outperformed by deep learning
in a sense of the minimax optimal rate especially for a high dimension setting.
The obtained excess bounds are so-called fast learning rate which is faster
than $O(1/\sqrt{n})$ that is obtained by usual Rademacher complexity analysis.
This discrepancy is induced by the non-convex geometry of the model and the
noisy gradient descent used for neural network training provably reaches a near
global optimal solution even though the loss landscape is highly non-convex.
Although the noisy gradient descent does not employ any explicit or implicit
sparsity inducing regularization, it shows a preferable generalization
performance that dominates linear estimators.
- Abstract(参考訳): 深層学習がカーネルメソッドのような浅層学習より優れている理由を説明する理論的解析を確立することは、深層学習文学における大きな問題の一つである。
この問題に対処するために,ニューラルネットワーク上でのリッジ正規化による雑音勾配勾配の学習によるディープラーニング推定器の過大なリスクを評価し,ニューラルタンジェントカーネルアプローチ,ランダム特徴モデル,その他のカーネルメソッド,$k$-NN推定器などを含む線形推定器のクラスに対する優位性について議論した。
教師が学習する回帰モデルを考えると、特に高次元設定において、どんな線形推定器でも極小の最適率という意味での深層学習により優れることを示す。
得られた余剰境界はいわゆる高速学習率であり、通常のラデマチャー複雑性解析によって得られる$O(1/\sqrt{n})$よりも高速である。
この差はモデルの非凸形状とニューラルネットワークトレーニングに使用される雑音勾配勾配によって誘導され、ロスランドスケープが非凸であるにもかかわらず、ほぼ大域最適解に確実に到達する。
雑音勾配降下は正則化を誘導する明示的あるいは暗黙的スパーシティを一切用いていないが、線形推定器を支配する好ましい一般化性能を示している。
関連論文リスト
- Hebbian learning inspired estimation of the linear regression parameters
from queries [18.374824005225186]
本稿では,線形回帰モデルにおける回帰ベクトルを復元するために,このヘビアン学習規則のバリエーションについて検討する。
我々は,このヘビアン学習規則が,データとは独立にクエリを選択する非適応的手法よりもはるかに高速に実行可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T19:00:32Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。