論文の概要: Theoretical Characterization of How Neural Network Pruning Affects its
Generalization
- arxiv url: http://arxiv.org/abs/2301.00335v1
- Date: Sun, 1 Jan 2023 03:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:40:15.644487
- Title: Theoretical Characterization of How Neural Network Pruning Affects its
Generalization
- Title(参考訳): ニューラルネットワークのプルーニングが一般化に与える影響に関する理論的評価
- Authors: Hongru Yang, Yingbin Liang, Xiaojie Guo, Lingfei Wu, Zhangyang Wang
- Abstract要約: この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
- 参考スコア(独自算出の注目度): 131.1347309639727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been observed in practice that applying pruning-at-initialization
methods to neural networks and training the sparsified networks can not only
retain the testing performance of the original dense models, but also sometimes
even slightly boost the generalization performance. Theoretical understanding
for such experimental observations are yet to be developed. This work makes the
first attempt to study how different pruning fractions affect the model's
gradient descent dynamics and generalization. Specifically, this work considers
a classification task for overparameterized two-layer neural networks, where
the network is randomly pruned according to different rates at the
initialization. It is shown that as long as the pruning fraction is below a
certain threshold, gradient descent can drive the training loss toward zero and
the network exhibits good generalization performance. More surprisingly, the
generalization bound gets better as the pruning fraction gets larger. To
complement this positive result, this work further shows a negative result:
there exists a large pruning fraction such that while gradient descent is still
able to drive the training loss toward zero (by memorizing noise), the
generalization performance is no better than random guessing. This further
suggests that pruning can change the feature learning process, which leads to
the performance drop of the pruned neural network. Up to our knowledge, this is
the \textbf{first} generalization result for pruned neural networks, suggesting
that pruning can improve the neural network's generalization.
- Abstract(参考訳): ニューラルネットワークにプルーニング・アット・初期化法を適用し、スパシファイドネットワークを訓練することで、元の高密度モデルの試験性能を維持するだけでなく、時として一般化性能をわずかに向上させることができる。
このような実験的な観測の理論的理解はまだ開発されていない。
この研究は、異なるプルーニング分数がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
具体的には,初期化の速度によってネットワークがランダムに刈り取られる過パラメータ2層ニューラルネットワークの分類タスクについて検討する。
プルーニング率が一定のしきい値以下であれば,勾配降下がトレーニング損失をゼロに誘導し,ネットワークの一般化性能が向上することが示された。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
この正の結果を補完するために、この研究はさらに負の結果を示す: 勾配降下が(ノイズを暗記することで)トレーニング損失をゼロに導くことができるような大きなプルーニング率が存在するが、一般化性能はランダムな推測よりも優れていない。
このことは、プルーニングが特徴学習プロセスを変え、プルーニングニューラルネットワークの性能低下につながることを示唆している。
我々の知る限り、これはプルーニングニューラルネットワークの‘textbf{first}一般化結果であり、プルーニングがニューラルネットワークの一般化を改善することを示唆している。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z) - Pre-interpolation loss behaviour in neural networks [3.8716601453641886]
テスト損失は全体としては増加せず,少数のサンプルに限られることを示す。
この効果は主に、正しく処理されたサンプルの特徴に関連するパラメータ値の増加に起因すると考えられる。
本研究は,ディープニューラルネットワークの共通行動の実用的理解に寄与する。
論文 参考訳(メタデータ) (2021-03-14T18:08:59Z) - Gradient Boosting Neural Networks: GrowNet [9.0491536808974]
「浅層ニューラルネットワークを弱学習者として活用する新しい勾配促進フレームワーク」が提案されている。
古典的な勾配上昇決定木を近似した欲求関数の落とし穴を修復するために、完全な補正ステップが組み込まれている。
提案モデルでは、複数のデータセット上の3つのタスクすべてにおいて、最先端のブースティング手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-19T03:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。