論文の概要: Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training
- arxiv url: http://arxiv.org/abs/2304.03385v1
- Date: Thu, 6 Apr 2023 21:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:28:55.513767
- Title: Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training
- Title(参考訳): 広域ニューラルネットワーク:初期化における非ガウス確率場からトレーニングのntk幾何へ
- Authors: Lu\'is Carvalho, Jo\~ao Lopes Costa, Jos\'e Mour\~ao, Gon\c{c}alo
Oliveira
- Abstract要約: パラメータが$n=1014$を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$の振る舞いを研究することが極めて重要である。
広義のニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$nから+infty$制限に焦点を当てている。
この研究では、それらの振る舞いを大まかに研究するが、有限$n$である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in applications of artificial neural networks with over
$n=10^{14}$ parameters make it extremely important to study the large $n$
behaviour of such networks. Most works studying wide neural networks have
focused on the infinite width $n \to +\infty$ limit of such networks and have
shown that, at initialization, they correspond to Gaussian processes. In this
work we will study their behavior for large, but finite $n$. Our main
contributions are the following:
(1) The computation of the corrections to Gaussianity in terms of an
asymptotic series in $n^{-\frac{1}{2}}$. The coefficients in this expansion are
determined by the statistics of parameter initialization and by the activation
function.
(2) Controlling the evolution of the outputs of finite width $n$ networks,
during training, by computing deviations from the limiting infinite width case
(in which the network evolves through a linear flow). This improves previous
estimates and yields sharper decay rates for the (finite width) NTK in terms of
$n$, valid during the entire training procedure. As a corollary, we also prove
that, with arbitrarily high probability, the training of sufficiently wide
neural networks converges to a global minimum of the corresponding quadratic
loss function.
(3) Estimating how the deviations from Gaussianity evolve with training in
terms of $n$. In particular, using a certain metric in the space of measures we
find that, along training, the resulting measure is within
$n^{-\frac{1}{2}}(\log n)^{1+}$ of the time dependent Gaussian process
corresponding to the infinite width network (which is explicitly given by
precomposing the initial Gaussian process with the linear flow corresponding to
training in the infinite width limit).
- Abstract(参考訳): パラメータが$n=10^{14}を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$動作を研究することが極めて重要である。
広いニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$n \to +\infty$制限に焦点を当てており、初期化時にはガウス過程に対応することを示した。
この作業では、大きなが有限の$n$で彼らの行動を研究します。
主な貢献は、(1)漸近級数($n^{-\frac{1}{2}}$)のガウス性に対する補正の計算である。
この展開の係数はパラメータ初期化の統計と活性化関数によって決定される。
2) 有限幅$n$ネットワークの学習における出力の進化の制御は,有限幅の場合(線形流れによってネットワークが進化する場合)からの偏差を計算することによって行う。
これにより、以前の推定値を改善し、(有限幅) NTK のよりシャープな崩壊率を、トレーニング手順全体において有効である$n$という観点で得られる。
結論として、任意の確率で十分に広いニューラルネットワークのトレーニングが対応する二次的損失関数の大域的最小値に収束することが証明された。
(3) ガウス性からの偏差が$n$のトレーニングでどのように変化するかを推定する。
特に、ある測度空間におけるある計量を用いて、トレーニングの結果として得られる測度は、無限幅のネットワークに対応する時間依存ガウス過程の$n^{-\frac{1}{2}}(\log n)^{1+}$(これは、無限幅のトレーニングに対応する線形フローで初期ガウス過程を前合成することによって明らかに与えられる)である。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Deep Neural Network Initialization with Sparsity Inducing Activations [5.437298646956505]
広幅ガウス過程の限界を用いて、隠れ出力の空間性を引き起こす非線形活性化の挙動を解析する。
未報告のトレーニング不安定性は、隠蔽層スパリフィケーションの最も自然な候補の2つとして証明されている。
この不安定性は、関連するガウス過程の分散写像の形状によって規定されたレベルにおいて、非線形活性化度をクリップすることで克服されることを示す。
論文 参考訳(メタデータ) (2024-02-25T20:11:40Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Large-width functional asymptotics for deep Gaussian neural networks [2.7561479348365734]
重みとバイアスが独立であり、ガウス分布に従って同一に分布する完全連結フィードフォワード深層ニューラルネットワークを考える。
この結果は、無限に広い深層ニューラルネットワークとプロセス間の相互作用に関する最近の理論的研究に寄与する。
論文 参考訳(メタデータ) (2021-02-20T10:14:37Z) - Infinitely Wide Tensor Networks as Gaussian Process [1.7894377200944511]
本稿では、無限に広いネットワークとガウス過程の等価性を示す。
我々は無限極限テンソルネットワークに対応するガウス過程を実装し、これらのモデルのサンプルパスをプロットする。
論文 参考訳(メタデータ) (2021-01-07T02:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。