論文の概要: Predicting the outputs of finite deep neural networks trained with noisy
gradients
- arxiv url: http://arxiv.org/abs/2004.01190v3
- Date: Thu, 30 Sep 2021 07:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:30:26.882646
- Title: Predicting the outputs of finite deep neural networks trained with noisy
gradients
- Title(参考訳): 雑音勾配を用いた有限深層ニューラルネットワークの出力予測
- Authors: Gadi Naveh, Oded Ben-David, Haim Sompolinsky and Zohar Ringel
- Abstract要約: 広深部ニューラルネットワーク(DNN)をガウス過程(GP)として近似して研究する最近の研究のシリーズ
本稿では、雑音、重み減衰、有限幅を含むDNNトレーニングプロトコルについて考察する。
その後、この非ガウス過程を分析するために解析的枠組みが導入され、GPからの偏差は有限幅で制御される。
- 参考スコア(独自算出の注目度): 1.1470070927586014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent line of works studied wide deep neural networks (DNNs) by
approximating them as Gaussian Processes (GPs). A DNN trained with gradient
flow was shown to map to a GP governed by the Neural Tangent Kernel (NTK),
whereas earlier works showed that a DNN with an i.i.d. prior over its weights
maps to the so-called Neural Network Gaussian Process (NNGP). Here we consider
a DNN training protocol, involving noise, weight decay and finite width, whose
outcome corresponds to a certain non-Gaussian stochastic process. An analytical
framework is then introduced to analyze this non-Gaussian process, whose
deviation from a GP is controlled by the finite width. Our contribution is
three-fold: (i) In the infinite width limit, we establish a correspondence
between DNNs trained with noisy gradients and the NNGP, not the NTK. (ii) We
provide a general analytical form for the finite width correction (FWC) for
DNNs with arbitrary activation functions and depth and use it to predict the
outputs of empirical finite networks with high accuracy. Analyzing the FWC
behavior as a function of $n$, the training set size, we find that it is
negligible for both the very small $n$ regime, and, surprisingly, for the large
$n$ regime (where the GP error scales as $O(1/n)$). (iii) We flesh out
algebraically how these FWCs can improve the performance of finite
convolutional neural networks (CNNs) relative to their GP counterparts on image
classification tasks.
- Abstract(参考訳): 最近の研究は、広義の深層ニューラルネットワーク(DNN)をガウス過程(GP)として近似することで研究している。
勾配流で訓練されたDNNは、ニューラル・タンジェント・カーネル(NTK)が支配するGPにマップすることが示されているが、以前の研究では、重み付けに先行したDNNが、いわゆるニューラル・ニューラルネットワーク・ガウス・プロセス(NNGP)にマップされていることが示されている。
ここでは,ノイズ,重量減衰,有限幅を含むdnnトレーニングプロトコルについて検討する。
その後、この非ガウス過程を分析するために解析的枠組みが導入され、GPからの偏差は有限幅で制御される。
私たちの貢献は3倍です。
i)無限幅制限では,雑音勾配で訓練されたDNNと,NTKではなくNNGPとの対応性を確立する。
(II)任意のアクティベーション関数と深さを持つDNNに対する有限幅補正(FWC)の一般的な解析形式を提供し、それを用いて経験的有限ネットワークの出力を高精度に予測する。
トレーニングセットのサイズである$n$の関数としてFWCの振る舞いを分析すると、非常に小さな$n$レジームと、驚くべきことに、大きな$n$レジーム(GPエラーが$O(1/n)$とスケールする)の両方に対して無視可能であることが分かる。
(iii)これらのfwcが画像分類タスクのgp対応に比べて有限畳み込みニューラルネットワーク(cnns)の性能をいかに改善するかを代数的に検討する。
関連論文リスト
- Graph Neural Networks Do Not Always Oversmooth [46.57665708260211]
グラフ畳み込みネットワーク (GCN) における過剰スムーシングを, 無限に多くの隠れた特徴の極限におけるガウス過程 (GP) の等価性を用いて検討する。
ネットワークの初期重みが十分に大きな場合、GCNは過度に過度に変化せず、ノード特徴は大きな深さでも情報的のままである。
論文 参考訳(メタデータ) (2024-06-04T12:47:13Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Superiority of GNN over NN in generalizing bandlimited functions [6.3151583550712065]
グラフニューラルネットワーク(GNN)は、さまざまなアプリケーションにまたがってグラフベースの情報を処理するための強力なリソースとして登場した。
本研究では,これらの分類におけるGNNの習熟度について検討する。
以上の結果から,GNNを用いた帯域制限関数を$varepsilon$-errorマージン内で一般化する上で,高い効率性を示した。
論文 参考訳(メタデータ) (2022-06-13T05:15:12Z) - A self consistent theory of Gaussian Processes captures feature learning
effects in finite CNNs [2.28438857884398]
無限幅/チャネル制限のディープニューラルネットワーク(DNN)が最近注目を集めている。
理論上の魅力にもかかわらず、この視点は有限DNNにおいて深層学習の重要な要素を欠いている。
ここでは,大きなトレーニングセット上で雑音勾配勾配で訓練されたDNNを考察し,強い有限DNNと特徴学習効果を考慮した自己一貫したガウス過程理論を導出する。
論文 参考訳(メタデータ) (2021-06-08T05:20:00Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - Characteristics of Monte Carlo Dropout in Wide Neural Networks [16.639005039546745]
モンテカルロ(MC)ドロップアウトはニューラルネットワーク(NN)における不確実性推定のための最先端のアプローチの1つである
本研究では, 降雨時の広帯域NNの制限分布についてより厳密に検討し, 一定の重みと偏りの集合に対してガウス過程に収束することが証明された。
本研究では,(強く)相関したプレアクティベーションが,強相関重みを持つNNにおいて非ガウス的行動を引き起こすかを検討する。
論文 参考訳(メタデータ) (2020-07-10T15:14:43Z) - Exact posterior distributions of wide Bayesian neural networks [51.20413322972014]
正確なBNN後方収束は、前者のGP限界によって誘導されるものと(弱く)収束することを示す。
実験的な検証のために、リジェクションサンプリングにより、小さなデータセット上で有限BNNから正確なサンプルを生成する方法を示す。
論文 参考訳(メタデータ) (2020-06-18T13:57:04Z) - Infinitely Wide Graph Convolutional Networks: Semi-supervised Learning
via Gaussian Processes [144.6048446370369]
グラフ畳み込みニューラルネットワーク(GCN)は近年,グラフに基づく半教師付き半教師付き分類において有望な結果を示した。
グラフに基づく半教師付き学習のためのGCN(GPGC)を用いたGP回帰モデルを提案する。
GPGCを評価するための広範囲な実験を行い、他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-26T10:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。