論文の概要: Neural tangent kernel analysis of shallow $\alpha$-Stable ReLU neural
networks
- arxiv url: http://arxiv.org/abs/2206.08065v1
- Date: Thu, 16 Jun 2022 10:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 04:42:03.124842
- Title: Neural tangent kernel analysis of shallow $\alpha$-Stable ReLU neural
networks
- Title(参考訳): 浅い$\alpha$-stable reluニューラルネットワークの神経接核解析
- Authors: Stefano Favaro, Sandra Fortini, Stefano Peluchetti
- Abstract要約: ガウスNNを一般化した$alpha$-Stable NNの問題を考察する。
ReLU関数を持つ浅い$alpha$-Stable NNに対して、NNの幅が無限大であれば、再スケールした NN は $alpha$-Stable プロセスに弱収束することを示す。
我々の主な貢献は、浅い$alpha$-Stable ReLU-NNのNTK分析であり、これは再スケールNNのトレーニングと$(alpha/)のカーネル回帰の実行の等価性をもたらす。
- 参考スコア(独自算出の注目度): 8.000374471991247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a recent literature on large-width properties of Gaussian neural
networks (NNs), i.e. NNs whose weights are distributed according to Gaussian
distributions. Two popular problems are: i) the study of the large-width
behaviour of NNs, which provided a characterization of the infinitely wide
limit of a rescaled NN in terms of a Gaussian process; ii) the study of the
large-width training dynamics of NNs, which set forth an equivalence between
training the rescaled NN and performing a kernel regression with a
deterministic kernel referred to as the neural tangent kernel (NTK). In this
paper, we consider these problems for $\alpha$-Stable NNs, which generalize
Gaussian NNs by assuming that the NN's weights are distributed as
$\alpha$-Stable distributions with $\alpha\in(0,2]$, i.e. distributions with
heavy tails. For shallow $\alpha$-Stable NNs with a ReLU activation function,
we show that if the NN's width goes to infinity then a rescaled NN converges
weakly to an $\alpha$-Stable process, i.e. a stochastic process with
$\alpha$-Stable finite-dimensional distributions. As a novelty with respect to
the Gaussian setting, in the $\alpha$-Stable setting the choice of the
activation function affects the scaling of the NN, that is: to achieve the
infinitely wide $\alpha$-Stable process, the ReLU function requires an
additional logarithmic scaling with respect to sub-linear functions. Then, our
main contribution is the NTK analysis of shallow $\alpha$-Stable ReLU-NNs,
which leads to an equivalence between training a rescaled NN and performing a
kernel regression with an $(\alpha/2)$-Stable random kernel. The randomness of
such a kernel is a further novelty with respect to the Gaussian setting, that
is: in the $\alpha$-Stable setting the randomness of the NN at initialization
does not vanish in the NTK analysis, thus inducing a distribution for the
kernel of the underlying kernel regression.
- Abstract(参考訳): ガウスニューラルネットワーク(NN)の広帯域特性、すなわちガウス分布に応じて重みが分布するNNに関する最近の文献がある。
2つの一般的な問題は
一 ガウス過程の観点で、再スケールしたNNの無限に広い限界を特徴づけるNNの広幅挙動の研究。
二 ニューラルタンジェントカーネル(NTK)と呼ばれる決定論的カーネルを用いて、再スケールしたNNのトレーニングとカーネル回帰の等価性を示すNNの大幅トレーニングダイナミクスの研究。
本稿では,nnの重みが$\alpha\in(0,2]$,すなわち重い尾を持つ分布を持つ$\alpha$-stable分布として分布することを仮定してgaussian nnを一般化する$\alpha$-stable nnsに対するこれらの問題を考える。
ReLU 活性化関数を持つ浅い $\alpha$-Stable NN に対して、NN の幅が無限大となると、再スケールされた NN は $\alpha$-Stable プロセス、すなわち $\alpha$-Stable 有限次元分布を持つ確率過程に弱収束することを示す。
ガウスの設定に関する新奇性として、$\alpha$-stable 設定において、活性化関数の選択はnnのスケーリングに影響を与える: 無限に広い$\alpha$-stable プロセスを達成するためには、relu 関数はサブ線形関数に関して追加の対数スケーリングを必要とする。
次に、NTK分析により、再スケールしたNNのトレーニングと、$(\alpha/2)$-Stableランダムカーネルによるカーネルレグレッションとの等価性を導いた。
そのような核のランダム性は、ガウス集合に関してさらに新しいものである: $\alpha$-stable 設定において、初期化におけるnnのランダム性は ntk 解析において消滅しないので、基礎となる核回帰の核の分布を誘導する。
関連論文リスト
- Kernel vs. Kernel: Exploring How the Data Structure Affects Neural Collapse [9.975341265604577]
ニューラル・コラプス(Neural Collapse)とは、NC1と呼ばれるネットワークの最も深い機能のクラス内での多様性の低下である。
この制限に悩まされないカーネルベースの分析を提供する。
NTKは、原型データモデルに対するNNGPよりも崩壊した特徴を表現していないことを示す。
論文 参考訳(メタデータ) (2024-06-04T08:33:56Z) - Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - Neural Networks for Singular Perturbations [0.0]
特異摂動楕円型二点境界値問題のモデルクラスの解集合に対する表現率境界を証明した。
我々は, NNサイズの観点から, ソボレフノルムの表現速度境界を定めている。
論文 参考訳(メタデータ) (2024-01-12T16:02:18Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Deep Stable neural networks: large-width asymptotics and convergence
rates [3.0108936184913295]
NNの層上に幅が無限大になるにつれて、適切な再スケールされたディープ・スタブル・NNは安定SPに弱収束することを示す。
非三角形NNの構造のため、これは非標準問題であり、新しい自己完結型帰納的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-02T12:18:00Z) - Neural Optimization Kernel: Towards Robust Deep Learning [13.147925376013129]
近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
論文 参考訳(メタデータ) (2021-06-11T00:34:55Z) - Large-width functional asymptotics for deep Gaussian neural networks [2.7561479348365734]
重みとバイアスが独立であり、ガウス分布に従って同一に分布する完全連結フィードフォワード深層ニューラルネットワークを考える。
この結果は、無限に広い深層ニューラルネットワークとプロセス間の相互作用に関する最近の理論的研究に寄与する。
論文 参考訳(メタデータ) (2021-02-20T10:14:37Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。