論文の概要: Robust Learning in Bayesian Parallel Branching Graph Neural Networks: The Narrow Width Limit
- arxiv url: http://arxiv.org/abs/2407.18807v2
- Date: Fri, 4 Oct 2024 02:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:50:05.080994
- Title: Robust Learning in Bayesian Parallel Branching Graph Neural Networks: The Narrow Width Limit
- Title(参考訳): ベイズ並列分岐グラフニューラルネットワークにおけるロバスト学習:狭幅限界
- Authors: Zechen Zhang, Haim Sompolinsky,
- Abstract要約: ベイズ並列分岐グラフニューラルネットワーク(BPB-GNN)の幅制限について検討する。
BPB-GNNの幅がトレーニング例の数に比べて有意に小さい場合、各ブランチはより堅牢な学習を示す。
本結果は,並列分岐ネットワークにおいて,新たに定義された狭帯域方式を特徴付けるものである。
- 参考スコア(独自算出の注目度): 4.373803477995854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The infinite width limit of random neural networks is known to result in Neural Networks as Gaussian Process (NNGP) (Lee et al. [2018]), characterized by task-independent kernels. It is widely accepted that larger network widths contribute to improved generalization (Park et al. [2019]). However, this work challenges this notion by investigating the narrow width limit of the Bayesian Parallel Branching Graph Neural Network (BPB-GNN), an architecture that resembles residual networks. We demonstrate that when the width of a BPB-GNN is significantly smaller compared to the number of training examples, each branch exhibits more robust learning due to a symmetry breaking of branches in kernel renormalization. Surprisingly, the performance of a BPB-GNN in the narrow width limit is generally superior or comparable to that achieved in the wide width limit in bias-limited scenarios. Furthermore, the readout norms of each branch in the narrow width limit are mostly independent of the architectural hyperparameters but generally reflective of the nature of the data. Our results characterize a newly defined narrow-width regime for parallel branching networks in general.
- Abstract(参考訳): ランダムニューラルネットワークの無限幅制限は、タスク非依存のカーネルを特徴とするGaussian Process (NNGP) (Lee et al [2018]) としてニューラルネットワークに現れることが知られている。
より広いネットワーク幅が一般化に寄与することが広く受け入れられている(Park et al [2019])。
しかし、この研究は、残余ネットワークに類似したアーキテクチャであるベイズ並列分岐グラフニューラルネットワーク(BPB-GNN)の幅制限を調査することによって、この概念に挑戦する。
我々は,BPB-GNNの幅がトレーニング例の数に比べて著しく小さい場合,各分岐はカーネル再正規化における分岐の対称性の破れにより,より堅牢な学習を示すことを示した。
驚いたことに、狭い幅制限におけるBPB-GNNの性能は、バイアス制限シナリオの幅制限で達成されるものよりも、一般的に優れているか、同等である。
さらに、狭い幅制限における各ブランチの読み出しノルムは、アーキテクチャのハイパーパラメータとは独立しているが、概してデータの性質を反映している。
本結果は,並列分岐ネットワークにおいて,新たに定義された狭帯域方式を特徴付けるものである。
関連論文リスト
- Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Wide Bayesian neural networks have a simple weight posterior: theory and
accelerated sampling [48.94555574632823]
再帰化は、ベイズニューラルネットワーク(BNN)の後部を、層幅が大きくなるにつれてKLがBNNに分岐する分布に変換する。
我々は,BNNを高速に混合するマルコフ連鎖モンテカルロ (MCMC) 後方サンプリングアルゴリズムを開発した。
完全接続ネットワークと残留ネットワークの双方の分離を伴わないため, 最大50倍の有効試料サイズを観測した。
論文 参考訳(メタデータ) (2022-06-15T17:11:08Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for
Deep ReLU Networks [21.13299067136635]
深部ReLUネットワークに対するNTK行列の最小固有値に厳密な境界を与える。
有限幅設定では、我々が考えるネットワークアーキテクチャは非常に一般的である。
論文 参考訳(メタデータ) (2020-12-21T19:32:17Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Bayesian Deep Ensembles via the Neural Tangent Kernel [49.569912265882124]
我々は、ニューラルタンジェントカーネル(NTK)のレンズを通して、ディープアンサンブルとガウス過程(GP)の関連を探索する。
そこで本研究では,各アンサンブルメンバーに対して,計算可能でランダム化され,訓練不能な関数を追加することで,標準的なディープアンサンブルトレーニングに簡単な修正を加える。
我々はベイズ深部アンサンブルが無限幅極限における標準深部アンサンブルよりも保守的な予測を行うことを証明した。
論文 参考訳(メタデータ) (2020-07-11T22:10:52Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z) - Wide Neural Networks with Bottlenecks are Deep Gaussian Processes [2.6641834518599308]
ボトルネック(bottleneck)と呼ばれる隠された層が有限の幅で保持されるBNNの幅の限界を考える。
直観的ではあるが、証明の微妙さは、ネットワークの構成の広い極限が実際は制限GPの構成であることを示すことである。
また、理論上はシングルブートネックNNGPの解析を行い、このボトルネックは、極端にブートネック後の深さを持続するマルチアウトプットネットワークの出力間の依存性を誘導することを示した。
論文 参考訳(メタデータ) (2020-01-03T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。