論文の概要: Deep Kernel Posterior Learning under Infinite Variance Prior Weights
- arxiv url: http://arxiv.org/abs/2410.01284v1
- Date: Wed, 2 Oct 2024 07:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:09:02.164397
- Title: Deep Kernel Posterior Learning under Infinite Variance Prior Weights
- Title(参考訳): 無限変数事前重み付きディープカーネル後部学習
- Authors: Jorge Loría, Anindya Bhadra,
- Abstract要約: ベイジアンディープニューラルネットワークは、条件付きガウス表現を持つ各層に$alpha$stableのマージンを持つプロセスに収束することを示す。
また,浅い多層ネットワーク上の浅層ネットワーク上でのLor'ia & Bhadra (2024)の結果の有用な一般化も提供する。
競合するアプローチに対する計算的および統計的利点は、シミュレーションやベンチマークデータセットでの実証において際立っている。
- 参考スコア(独自算出の注目度): 1.5960546024967326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neal (1996) proved that infinitely wide shallow Bayesian neural networks (BNN) converge to Gaussian processes (GP), when the network weights have bounded prior variance. Cho & Saul (2009) provided a useful recursive formula for deep kernel processes for relating the covariance kernel of each layer to the layer immediately below. Moreover, they worked out the form of the layer-wise covariance kernel in an explicit manner for several common activation functions. Recent works, including Aitchison et al. (2021), have highlighted that the covariance kernels obtained in this manner are deterministic and hence, precludes any possibility of representation learning, which amounts to learning a non-degenerate posterior of a random kernel given the data. To address this, they propose adding artificial noise to the kernel to retain stochasticity, and develop deep kernel inverse Wishart processes. Nonetheless, this artificial noise injection could be critiqued in that it would not naturally emerge in a classic BNN architecture under an infinite-width limit. To address this, we show that a Bayesian deep neural network, where each layer width approaches infinity, and all network weights are elliptically distributed with infinite variance, converges to a process with $\alpha$-stable marginals in each layer that has a conditionally Gaussian representation. These conditional random covariance kernels could be recursively linked in the manner of Cho & Saul (2009), even though marginally the process exhibits stable behavior, and hence covariances are not even necessarily defined. We also provide useful generalizations of the recent results of Lor\'ia & Bhadra (2024) on shallow networks to multi-layer networks, and remedy the computational burden of their approach. The computational and statistical benefits over competing approaches stand out in simulations and in demonstrations on benchmark data sets.
- Abstract(参考訳): Neal (1996) は、ネットワーク重みが事前の分散に束縛されたとき、無限に浅いベイズニューラルネットワーク (BNN) がガウス過程 (GP) に収束することを証明した。
Cho & Saul (2009) は、各層の共分散カーネルを直下の層に関連付けるために、ディープカーネルプロセスに有用な再帰公式を提供した。
さらに、複数の共通活性化関数に対して、レイヤワイズ共分散カーネルの形式を明示的に研究した。
Aitchison et al (2021) を含む最近の研究は、この方法で得られた共分散カーネルは決定論的であり、したがって表現学習の可能性を妨げている。
これを解決するために、彼らは確率性を維持するためにカーネルに人工ノイズを追加し、深層カーネル逆ウィッシュアートプロセスを開発することを提案した。
それでも、この人工ノイズ注入は、無限幅の制限の下で古典的なBNNアーキテクチャで自然に現れるものではないと批判される可能性がある。
これを解決するために、各層幅が無限大に近づき、全てのネットワーク重みが無限分散で楕円的に分布するベイズディープニューラルネットワークが、条件付きガウス表現を持つ各層に$$\alpha$stable境界を持つプロセスに収束することを示す。
これらの条件付きランダムな共分散核は Cho & Saul (2009) のやり方で再帰的にリンクできるが、その過程は比較的安定な振る舞いを示し、従って共分散は必ずしも定義されない。
また, 浅層ネットワーク上でのLor\'ia & Bhadra (2024) の最近の結果を多層ネットワークに一般化し, その計算負担を軽減した。
競合するアプローチに対する計算的および統計的利点は、シミュレーションやベンチマークデータセットでの実証において際立っている。
関連論文リスト
- Random ReLU Neural Networks as Non-Gaussian Processes [20.607307985674428]
線形単位活性化関数が整列されたランダムニューラルネットワークは、ガウス過程を適切に定義していないことを示す。
副産物として、これらのネットワークは、衝動ホワイトノイズによって駆動される微分方程式の解であることを示す。
論文 参考訳(メタデータ) (2024-05-16T16:28:11Z) - Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Neural signature kernels as infinite-width-depth-limits of controlled
ResNets [5.306881553301636]
ニューラル制御微分方程式のオイラー離散化として定義されるランダム制御ResNet(ニューラルCDE)を考える。
無限幅幅の極限と適切なスケーリングの下では、これらのアーキテクチャは連続経路のある空間にインデックス付けされたガウス過程に弱収束することを示す。
有限幅制御されたResNetは,無限深度系において,ランダムなベクトル場を持つニューラルCDEに分布することを示す。
論文 参考訳(メタデータ) (2023-03-30T19:20:16Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Large-width functional asymptotics for deep Gaussian neural networks [2.7561479348365734]
重みとバイアスが独立であり、ガウス分布に従って同一に分布する完全連結フィードフォワード深層ニューラルネットワークを考える。
この結果は、無限に広い深層ニューラルネットワークとプロセス間の相互作用に関する最近の理論的研究に寄与する。
論文 参考訳(メタデータ) (2021-02-20T10:14:37Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Stable behaviour of infinitely wide deep neural networks [8.000374471991247]
我々は、重みとバイアスが独立して均等に分布する、完全に接続されたフィードフォワードディープニューラルネットワーク(NN)について検討する。
NNの無限の幅制限は、重みに対する適切なスケーリングの下で、有限次元分布が安定分布である過程であることを示す。
論文 参考訳(メタデータ) (2020-03-01T04:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。