論文の概要: Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK
- arxiv url: http://arxiv.org/abs/2301.00327v3
- Date: Tue, 29 Oct 2024 18:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 20:43:56.893602
- Title: Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK
- Title(参考訳): 大バイアスによるスパース活性化を伴うニューラルネットワーク:Bias-Generalized NTKを用いたタイター解析
- Authors: Hongru Yang, Ziyu Jiang, Ruizhe Zhang, Yingbin Liang, Zhangyang Wang,
- Abstract要約: ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
- 参考スコア(独自算出の注目度): 86.45209429863858
- License:
- Abstract: We study training one-hidden-layer ReLU networks in the neural tangent kernel (NTK) regime, where the networks' biases are initialized to some constant rather than zero. We prove that under such initialization, the neural network will have sparse activation throughout the entire training process, which enables fast training procedures via some sophisticated computational methods. With such initialization, we show that the neural networks possess a different limiting kernel which we call \textit{bias-generalized NTK}, and we study various properties of the neural networks with this new kernel. We first characterize the gradient descent dynamics. In particular, we show that the network in this case can achieve as fast convergence as the dense network, as opposed to the previous work suggesting that the sparse networks converge slower. In addition, our result improves the previous required width to ensure convergence. Secondly, we study the networks' generalization: we show a width-sparsity dependence, which yields a sparsity-dependent Rademacher complexity and generalization bound. To our knowledge, this is the first sparsity-dependent generalization result via Rademacher complexity. Lastly, we study the smallest eigenvalue of this new kernel. We identify a data-dependent region where we can derive a much sharper lower bound on the NTK's smallest eigenvalue than the worst-case bound previously known. This can lead to improvement in the generalization bound.
- Abstract(参考訳): ニューラルネットワークカーネル(NTK)システムにおいて,ネットワークのバイアスをゼロではなく定数に初期化する一層ReLUネットワークのトレーニングについて検討した。
このような初期化の下では、ニューラルネットワークはトレーニングプロセス全体を通してスパースアクティベーションを持ち、いくつかの高度な計算方法による高速なトレーニング手順を可能にすることを証明している。
このような初期化により、ニューラルネットワークは異なる制限カーネルを有しており、それを \textit{bias- Generalized NTK} と呼び、この新しいカーネルでニューラルネットワークの様々な特性を研究する。
まず、勾配降下ダイナミクスを特徴付ける。
特に、この場合のネットワークは、スパースネットワークが緩やかに収束することを示唆する以前の研究とは対照的に、密集ネットワークと同じくらい早く収束できることを示す。
さらに, コンバージェンスを確保するために, 従来要求していた幅を改良した。
第2に、ネットワークの一般化について検討し、幅とスパーシティ依存性を示し、空間依存性に依存したラデマッハ複雑性と一般化バウンドを生成する。
我々の知る限り、これはRademacher複雑性による空間依存的な一般化結果としては初めてである。
最後に、この新しいカーネルの最小固有値について検討する。
我々は、NTKの最小固有値に対して、これまで知られていた最悪のケース境界よりもはるかにシャープな低い境界を導出できるデータ依存領域を同定する。
これは一般化境界の改善につながる可能性がある。
関連論文リスト
- Infinite Width Limits of Self Supervised Neural Networks [6.178817969919849]
NTKと自己教師型学習のギャップを埋め、Barlow Twinsの損失下で訓練された2層ニューラルネットワークに焦点を当てる。
ネットワークの幅が無限大に近づくと、バーロウ・ツインズのNTKは確かに一定となる。
論文 参考訳(メタデータ) (2024-11-17T21:13:57Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Limitations of the NTK for Understanding Generalization in Deep Learning [13.44676002603497]
我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
論文 参考訳(メタデータ) (2022-06-20T21:23:28Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。