論文の概要: Gradient Descent in Neural Networks as Sequential Learning in RKBS
- arxiv url: http://arxiv.org/abs/2302.00205v1
- Date: Wed, 1 Feb 2023 03:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:33:42.469202
- Title: Gradient Descent in Neural Networks as Sequential Learning in RKBS
- Title(参考訳): RKBSにおける逐次学習としてのニューラルネットワークのグラディエントDescent
- Authors: Alistair Shilton, Sunil Gupta, Santu Rana, Svetha Venkatesh
- Abstract要約: 初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
- 参考スコア(独自算出の注目度): 63.011641517977644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of Neural Tangent Kernels (NTKs) has provided much needed insight
into convergence and generalization properties of neural networks in the
over-parametrized (wide) limit by approximating the network using a first-order
Taylor expansion with respect to its weights in the neighborhood of their
initialization values. This allows neural network training to be analyzed from
the perspective of reproducing kernel Hilbert spaces (RKHS), which is
informative in the over-parametrized regime, but a poor approximation for
narrower networks as the weights change more during training. Our goal is to
extend beyond the limits of NTK toward a more general theory. We construct an
exact power-series representation of the neural network in a finite
neighborhood of the initial weights as an inner product of two feature maps,
respectively from data and weight-step space, to feature space, allowing neural
network training to be analyzed from the perspective of reproducing kernel {\em
Banach} space (RKBS). We prove that, regardless of width, the training sequence
produced by gradient descent can be exactly replicated by regularized
sequential learning in RKBS. Using this, we present novel bound on uniform
convergence where the iterations count and learning rate play a central role,
giving new theoretical insight into neural network training.
- Abstract(参考訳): ニューラル・タンジェント・カーネル(ntks)の研究は、ニューラルネットワークの初期化値の近傍の重みに対して一階テイラー展開を用いてネットワークを近似することにより、超パラメータ(全体)限界におけるニューラルネットワークの収束と一般化特性に関する多くの知見を提供した。
これにより、ニューラルネットワークのトレーニングを、過剰にパラメータ化された状態において有益であるカーネルヒルベルト空間(英語版)(rkhs)の再現の観点から分析することができるが、トレーニング中に重みがより変化するにつれて、狭められたネットワークの近似は不十分である。
我々の目標はNTKの限界を超えて、より一般的な理論へと拡張することである。
データと重みステップ空間から特徴空間への2つの特徴写像の内積として、初期重みの有限近傍におけるニューラルネットワークの正確なパワーシリーズ表現を構築し、ニューラルネットワークのトレーニングを再生カーネル・バナッハ空間(英語版)(rkbs)の観点から解析する。
我々は,RKBSにおける正規化シーケンシャル学習により,勾配降下によるトレーニングシーケンスを正確に再現できることを証明した。
そこで本研究では,反復数と学習率を中心的役割とする一様収束のバウンドを示し,ニューラルネットワーク学習に対する新たな理論的洞察を与える。
関連論文リスト
- Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Connecting NTK and NNGP: A Unified Theoretical Framework for Neural
Network Learning Dynamics in the Kernel Regime [7.136205674624813]
ニューラルネットワークの学習過程を無限の幅制限で理解するための包括的フレームワークを提供する。
我々は、勾配駆動学習と拡散学習という、異なる時間スケールで特徴づけられる2つの学習フェーズを同定する。
論文 参考訳(メタデータ) (2023-09-08T18:00:01Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。