論文の概要: Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks
- arxiv url: http://arxiv.org/abs/2110.05667v1
- Date: Tue, 12 Oct 2021 01:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:35:20.454595
- Title: Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks
- Title(参考訳): なぜ宝くじが勝つのか。
ニューラルネットワークにおけるサンプル複雑性の理論的展望
- Authors: Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong
- Abstract要約: 目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
- 参考スコア(独自算出の注目度): 79.74580058178594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The \textit{lottery ticket hypothesis} (LTH) states that learning on a
properly pruned network (the \textit{winning ticket}) improves test accuracy
over the original unpruned network. Although LTH has been justified empirically
in a broad range of deep neural network (DNN) involved applications like
computer vision and natural language processing, the theoretical validation of
the improved generalization of a winning ticket remains elusive. To the best of
our knowledge, our work, for the first time, characterizes the performance of
training a pruned neural network by analyzing the geometric structure of the
objective function and the sample complexity to achieve zero generalization
error. We show that the convex region near a desirable model with guaranteed
generalization enlarges as the neural network model is pruned, indicating the
structural importance of a winning ticket. Moreover, when the algorithm for
training a pruned neural network is specified as an (accelerated) stochastic
gradient descent algorithm, we theoretically show that the number of samples
required for achieving zero generalization error is proportional to the number
of the non-pruned weights in the hidden layer. With a fixed number of samples,
training a pruned neural network enjoys a faster convergence rate to the
desired model than training the original unpruned one, providing a formal
justification of the improved generalization of the winning ticket. Our
theoretical results are acquired from learning a pruned neural network of one
hidden layer, while experimental results are further provided to justify the
implications in pruning multi-layer neural networks.
- Abstract(参考訳): lth ( \textit{lottery ticket hypothesis}) は、適切に刈り取られたネットワーク( \textit{winning ticket})で学習することで、元の未刈り込みネットワークよりもテスト精度が向上することを示す。
lthはコンピュータビジョンや自然言語処理などの応用を含む幅広い深層ニューラルネットワーク(dnn)で実証的に正当化されてきたが、当選チケットの一般化に関する理論的検証はいまだに解明されていない。
我々の知識を最大限に活用するために、我々の研究は、目的関数の幾何学的構造とサンプルの複雑さを分析して、探索されたニューラルネットワークを訓練する性能を初めて特徴づけ、一般化誤差をゼロにする。
ニューラルネットワークモデルが刈り取られるにつれて,汎用性が保証された望ましいモデル近傍の凸領域が拡大し,当選券の構造的重要性が示された。
さらに,prunedニューラルネットワークの学習アルゴリズムを(加速)確率的勾配降下アルゴリズムとして指定すると,理論上,ゼロ一般化誤差を達成するために必要なサンプル数が隠れた層内の非pruned重みの個数に比例することを示す。
一定のサンプル数で、プルーンされたニューラルネットワークのトレーニングは、元のプルーンされたニューラルネットワークのトレーニングよりも望ましいモデルへの収束率を高くし、勝利チケットの一般化が改善された公式な正当化を提供する。
実験の結果は,1つの隠れた層からなるプルーニングニューラルネットワークの学習から得られたものであるが,複数層ニューラルネットワークのプルーニングにおける意義を正当化するための実験結果が得られた。
関連論文リスト
- Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - A Kernel-Expanded Stochastic Neural Network [10.837308632004644]
ディープニューラルネットワークは、トレーニングにおいて、しばしばローカルな最小限に閉じ込められる。
新しいカーネル拡張ニューラルネットワーク(K-StoNet)モデルは、潜在変数モデルとしてネットワークを再構成する。
モデルは命令正規化最適化(IRO)アルゴリズムを用いて容易に訓練することができる。
論文 参考訳(メタデータ) (2022-01-14T06:42:42Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Persistent Homology Captures the Generalization of Neural Networks
Without A Validation Set [0.0]
本稿では,代数的トポロジー,特に永続的ホモロジーを用いたニューラルネットワークのトレーニングについて考察する。
ニューラルネットワークの単純な複雑な表現を用いて、ニューラルネットワーク学習プロセスにおけるPHダイアグラム距離の進化について検討する。
その結果,連続するニューラルネットワーク状態間のPHダイアグラム距離は,検証精度と相関していることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:31Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。