論文の概要: Sharper analysis of sparsely activated wide neural networks with
trainable biases
- arxiv url: http://arxiv.org/abs/2301.00327v1
- Date: Sun, 1 Jan 2023 02:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:28:12.369440
- Title: Sharper analysis of sparsely activated wide neural networks with
trainable biases
- Title(参考訳): 学習可能なバイアスを有する疎活性化広帯域ニューラルネットワークのシャープ解析
- Authors: Hongru Yang, Ziyu Jiang, Ruizhe Zhang, Zhangyang Wang, Yingbin Liang
- Abstract要約: 本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
- 参考スコア(独自算出の注目度): 103.85569570164404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies training one-hidden-layer overparameterized ReLU networks
via gradient descent in the neural tangent kernel (NTK) regime, where,
differently from the previous works, the networks' biases are trainable and are
initialized to some constant rather than zero. The first set of results of this
work characterize the convergence of the network's gradient descent dynamics.
Surprisingly, it is shown that the network after sparsification can achieve as
fast convergence as the original network. The contribution over previous work
is that not only the bias is allowed to be updated by gradient descent under
our setting but also a finer analysis is given such that the required width to
ensure the network's closeness to its NTK is improved. Secondly, the networks'
generalization bound after training is provided. A width-sparsity dependence is
presented which yields sparsity-dependent localized Rademacher complexity and a
generalization bound matching previous analysis (up to logarithmic factors). As
a by-product, if the bias initialization is chosen to be zero, the width
requirement improves the previous bound for the shallow networks'
generalization. Lastly, since the generalization bound has dependence on the
smallest eigenvalue of the limiting NTK and the bounds from previous works
yield vacuous generalization, this work further studies the least eigenvalue of
the limiting NTK. Surprisingly, while it is not shown that trainable biases are
necessary, trainable bias helps to identify a nice data-dependent region where
a much finer analysis of the NTK's smallest eigenvalue can be conducted, which
leads to a much sharper lower bound than the previously known worst-case bound
and, consequently, a non-vacuous generalization bound.
- Abstract(参考訳): 本研究は,ニューラルタンジェントカーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究であり,ネットワークのバイアスは以前の研究と異なり,ゼロではなく定数に初期化される。
この研究の最初の成果は、ネットワークの勾配降下ダイナミクスの収束を特徴付けるものである。
驚くべきことに、スパーシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
先行研究に対する貢献は,我々の設定下での勾配降下によってバイアスが更新されるだけでなく,ネットワークのntkとの密接性を確保するために必要な幅が向上するように,より詳細な解析が行われることである。
第2に、トレーニング後のネットワークの一般化が提供される。
スパルシリティ依存局所ラデマッハ複雑性と(対数因子まで)先行分析に合致する一般化を生じさせる幅スパーシティ依存性が提示される。
副産物として、バイアス初期化がゼロであると選択された場合、幅要求は浅層ネットワークの一般化に対する以前の境界を改善する。
最後に、一般化境界は極限 NTK の最小固有値と以前の研究の限界値に依存するため、この研究は制限 NTK の最小固有値をさらに研究する。
驚くべきことに、トレーニング可能なバイアスが必要とされることは示されていないが、トレーニング可能なバイアスは、NTKの最小固有値のより詳細な分析を行うことができる優れたデータ依存領域を特定するのに役立つ。
関連論文リスト
- Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文 参考訳(メタデータ) (2023-06-20T16:40:41Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。