論文の概要: When narrower is better: the narrow width limit of Bayesian parallel branching neural networks
- arxiv url: http://arxiv.org/abs/2407.18807v3
- Date: Mon, 10 Mar 2025 15:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:24.737388
- Title: When narrower is better: the narrow width limit of Bayesian parallel branching neural networks
- Title(参考訳): より狭くなるとき--ベイズ並列分岐ニューラルネットワークの狭幅限界-
- Authors: Zechen Zhang, Haim Sompolinsky,
- Abstract要約: 狭い幅制限におけるBPB-NNの性能は、一般にバイアス制限シナリオにおける幅制限よりも優れているか、あるいは同等である。
本結果は,並列分岐ネットワークにおいて,新たに定義された狭帯域方式を特徴付けるものである。
- 参考スコア(独自算出の注目度): 4.373803477995854
- License:
- Abstract: The infinite width limit of random neural networks is known to result in Neural Networks as Gaussian Process (NNGP) (Lee et al. (2018)), characterized by task-independent kernels. It is widely accepted that larger network widths contribute to improved generalization (Park et al. (2019)). However, this work challenges this notion by investigating the narrow width limit of the Bayesian Parallel Branching Neural Network (BPB-NN), an architecture that resembles neural networks with residual blocks. We demonstrate that when the width of a BPB-NN is significantly smaller compared to the number of training examples, each branch exhibits more robust learning due to a symmetry breaking of branches in kernel renormalization. Surprisingly, the performance of a BPB-NN in the narrow width limit is generally superior to or comparable to that achieved in the wide width limit in bias-limited scenarios. Furthermore, the readout norms of each branch in the narrow width limit are mostly independent of the architectural hyperparameters but generally reflective of the nature of the data. We demonstrate such phenomenon primarily in the branching graph neural networks, where each branch represents a different order of convolutions of the graph; we also extend the results to other more general architectures such as the residual-MLP and demonstrate that the narrow width effect is a general feature of the branching networks. Our results characterize a newly defined narrow-width regime for parallel branching networks in general.
- Abstract(参考訳): ランダムニューラルネットワークの無限幅制限は、タスク非依存のカーネルによって特徴づけられるGaussian Process (NNGP) (Lee et al (2018)) と呼ばれるニューラルネットワークの結果であることが知られている。
より大きなネットワーク幅が一般化に寄与することが広く受け入れられている(Park et al (2019))。
しかしながら、この研究は、残留ブロックを持つニューラルネットワークに類似したアーキテクチャであるベイズ並列分岐ニューラルネットワーク(BPB-NN)の幅制限を調査することによって、この概念に挑戦する。
我々は,BPB-NNの幅がトレーニング例の数に比べて著しく小さい場合,カーネル再正規化における分岐の対称性の破れにより,各分岐はより堅牢な学習を示すことを示した。
驚いたことに、狭い幅制限におけるBPB-NNの性能は、バイアス制限シナリオの幅制限で達成されるものよりも一般的に優れているか、同等である。
さらに、狭い幅制限における各ブランチの読み出しノルムは、アーキテクチャのハイパーパラメータとは独立しているが、概してデータの性質を反映している。
我々は,グラフの畳み込みの順序が異なる分岐グラフニューラルネットワークにおいて,そのような現象を主に示す。また,残差MLPなどの他の一般的なアーキテクチャにも結果を拡張し,狭い幅効果が分岐ネットワークの一般的な特徴であることを実証する。
本結果は,並列分岐ネットワークにおいて,新たに定義された狭帯域方式を特徴付けるものである。
関連論文リスト
- Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Wide Bayesian neural networks have a simple weight posterior: theory and
accelerated sampling [48.94555574632823]
再帰化は、ベイズニューラルネットワーク(BNN)の後部を、層幅が大きくなるにつれてKLがBNNに分岐する分布に変換する。
我々は,BNNを高速に混合するマルコフ連鎖モンテカルロ (MCMC) 後方サンプリングアルゴリズムを開発した。
完全接続ネットワークと残留ネットワークの双方の分離を伴わないため, 最大50倍の有効試料サイズを観測した。
論文 参考訳(メタデータ) (2022-06-15T17:11:08Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for
Deep ReLU Networks [21.13299067136635]
深部ReLUネットワークに対するNTK行列の最小固有値に厳密な境界を与える。
有限幅設定では、我々が考えるネットワークアーキテクチャは非常に一般的である。
論文 参考訳(メタデータ) (2020-12-21T19:32:17Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Bayesian Deep Ensembles via the Neural Tangent Kernel [49.569912265882124]
我々は、ニューラルタンジェントカーネル(NTK)のレンズを通して、ディープアンサンブルとガウス過程(GP)の関連を探索する。
そこで本研究では,各アンサンブルメンバーに対して,計算可能でランダム化され,訓練不能な関数を追加することで,標準的なディープアンサンブルトレーニングに簡単な修正を加える。
我々はベイズ深部アンサンブルが無限幅極限における標準深部アンサンブルよりも保守的な予測を行うことを証明した。
論文 参考訳(メタデータ) (2020-07-11T22:10:52Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z) - Wide Neural Networks with Bottlenecks are Deep Gaussian Processes [2.6641834518599308]
ボトルネック(bottleneck)と呼ばれる隠された層が有限の幅で保持されるBNNの幅の限界を考える。
直観的ではあるが、証明の微妙さは、ネットワークの構成の広い極限が実際は制限GPの構成であることを示すことである。
また、理論上はシングルブートネックNNGPの解析を行い、このボトルネックは、極端にブートネック後の深さを持続するマルチアウトプットネットワークの出力間の依存性を誘導することを示した。
論文 参考訳(メタデータ) (2020-01-03T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。