論文の概要: Memorization and Optimization in Deep Neural Networks with Minimum
Over-parameterization
- arxiv url: http://arxiv.org/abs/2205.10217v3
- Date: Sun, 21 May 2023 07:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:13:05.331848
- Title: Memorization and Optimization in Deep Neural Networks with Minimum
Over-parameterization
- Title(参考訳): 過パラメータ最小深層ニューラルネットワークの記憶と最適化
- Authors: Simone Bombari, Mohammad Hossein Amani, Marco Mondelli
- Abstract要約: Neural Tangent Kernel(NTK)は、ディープニューラルネットワークにおける記憶、最適化、一般化の保証を提供する強力なツールとして登場した。
NTKは、挑戦的なサブ線形設定においてよく条件付けされていることを示す。
我々の重要な技術的貢献は、ディープネットワークにおける最小のNTK固有値の低い境界である。
- 参考スコア(独自算出の注目度): 14.186776881154127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Neural Tangent Kernel (NTK) has emerged as a powerful tool to provide
memorization, optimization and generalization guarantees in deep neural
networks. A line of work has studied the NTK spectrum for two-layer and deep
networks with at least a layer with $\Omega(N)$ neurons, $N$ being the number
of training samples. Furthermore, there is increasing evidence suggesting that
deep networks with sub-linear layer widths are powerful memorizers and
optimizers, as long as the number of parameters exceeds the number of samples.
Thus, a natural open question is whether the NTK is well conditioned in such a
challenging sub-linear setup. In this paper, we answer this question in the
affirmative. Our key technical contribution is a lower bound on the smallest
NTK eigenvalue for deep networks with the minimum possible
over-parameterization: the number of parameters is roughly $\Omega(N)$ and,
hence, the number of neurons is as little as $\Omega(\sqrt{N})$. To showcase
the applicability of our NTK bounds, we provide two results concerning
memorization capacity and optimization guarantees for gradient descent
training.
- Abstract(参考訳): Neural Tangent Kernel(NTK)は、ディープニューラルネットワークにおける記憶、最適化、一般化を保証する強力なツールとして登場した。
一連の研究によって、2層およびディープネットワークのntkスペクトルが研究され、最低でも$\omega(n)$ニューロンの層があり、トレーニングサンプルの数は$n$である。
さらに,パラメータ数がサンプル数を超える限り,サブ線形層幅の深いネットワークが強力な記憶器やオプティマイザであることを示す証拠も増えている。
したがって、自然な開問題は、NTKがそのような挑戦的なサブ線形構成において十分に条件付けられているかどうかである。
本稿では,この疑問に肯定的に答える。
我々の重要な技術的貢献は、極小のNTK固有値に最小限のオーバーパラメータ化を持つことである:パラメータの数はおよそ$\Omega(N)$であり、従ってニューロンの数は$\Omega(\sqrt{N})$である。
NTKバウンダリの適用性を示すために,暗記能力と勾配降下訓練の最適化保証に関する2つの結果を提供する。
関連論文リスト
- Efficient SGD Neural Network Training via Sublinear Activated Neuron
Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。
また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文 参考訳(メタデータ) (2023-07-13T05:33:44Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Identifying good directions to escape the NTK regime and efficiently
learn low-degree plus sparse polynomials [52.11466135206223]
広帯域2層ニューラルネットワークはターゲット関数に適合するためにTangent Kernel(NTK)とQuadNTKを併用可能であることを示す。
これにより、終端収束が得られ、NTKとQuadNTKの双方に対して証明可能なサンプル改善が保証される。
論文 参考訳(メタデータ) (2022-06-08T06:06:51Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for
Deep ReLU Networks [21.13299067136635]
深部ReLUネットワークに対するNTK行列の最小固有値に厳密な境界を与える。
有限幅設定では、我々が考えるネットワークアーキテクチャは非常に一般的である。
論文 参考訳(メタデータ) (2020-12-21T19:32:17Z) - Feature Learning in Infinite-Width Neural Networks [17.309380337367536]
ニューラルネットワークの標準およびNTKパラメトリゼーションは、特徴を学習できる無限幅制限を認めないことを示す。
本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。
論文 参考訳(メタデータ) (2020-11-30T03:21:05Z) - Provable Memorization via Deep Neural Networks using Sub-linear
Parameters [91.0268925267129]
O(N)$パラメータはニューラルネットワークが任意の$N$入力ラベルペアを記憶するのに十分であることが知られている。
深度を利用して,$O(N2/3)$パラメータが入力点分離の軽度条件下で,$N$ペアを記憶するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-10-26T06:19:38Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Towards an Understanding of Residual Networks Using Neural Tangent
Hierarchy (NTH) [2.50686294157537]
グラディエント降下は、目的関数の無限の性質に拘わらず、ディープトレーニングネットワークの時間損失をゼロにする。
本稿では,Deep Residual Network (ResNet) を用いた有限幅ResNetに対するNTKのニューラルダイナミクスの訓練を行った。
我々の分析は、特定の神経結合構造であるResNetがその勝利の主因であることを強く示唆している。
論文 参考訳(メタデータ) (2020-07-07T18:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。