論文の概要: How much pre-training is enough to discover a good subnetwork?
- arxiv url: http://arxiv.org/abs/2108.00259v3
- Date: Tue, 22 Aug 2023 18:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 19:35:13.028009
- Title: How much pre-training is enough to discover a good subnetwork?
- Title(参考訳): 優れたサブネットワークを見つけるのにどの程度の事前トレーニングが必要か?
- Authors: Cameron R. Wolfe, Fangshuo Liao, Qihan Wang, Junhyung Lyle Kim,
Anastasios Kyrillidis
- Abstract要約: 刈り取られたネットワークが正常に動作するために必要となる高密度ネットワーク事前学習の量を数学的に解析する。
2層全接続ネットワーク上での勾配降下事前学習の回数の単純な理論的境界を求める。
より大きなデータセットでの実験では、プルーニングによって得られた事前トレーニングのフォアワークがうまく機能するために必要になる。
- 参考スコア(独自算出の注目度): 10.699603774240853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network pruning is useful for discovering efficient, high-performing
subnetworks within pre-trained, dense network architectures. More often than
not, it involves a three-step process -- pre-training, pruning, and re-training
-- that is computationally expensive, as the dense model must be fully
pre-trained. While previous work has revealed through experiments the
relationship between the amount of pre-training and the performance of the
pruned network, a theoretical characterization of such dependency is still
missing. Aiming to mathematically analyze the amount of dense network
pre-training needed for a pruned network to perform well, we discover a simple
theoretical bound in the number of gradient descent pre-training iterations on
a two-layer, fully-connected network, beyond which pruning via greedy forward
selection [61] yields a subnetwork that achieves good training error.
Interestingly, this threshold is shown to be logarithmically dependent upon the
size of the dataset, meaning that experiments with larger datasets require more
pre-training for subnetworks obtained via pruning to perform well. Lastly, we
empirically validate our theoretical results on a multi-layer perceptron
trained on MNIST.
- Abstract(参考訳): ニューラルネットワークのプルーニングは、事前訓練された密集したネットワークアーキテクチャ内で効率的でハイパフォーマンスなサブネットワークを発見するのに有用である。
多くの場合、それは3段階のプロセス -- 事前トレーニング、プルーニング、再トレーニング -- を伴います。
事前学習量とプルーンネットワークの性能の関係を実験により明らかにしたが、その依存性の理論的な特徴付けはいまだに欠けている。
刈り込みネットワークがうまく機能するために必要な密集したネットワーク事前学習量を数学的に解析することを目指して,二層完全連結ネットワーク上での勾配降下事前学習回数の簡易な理論的拘束力を発見し,そこではグリーディフォワードセレクション [61] による刈り取りによって,良好なトレーニングエラーを実現するサブネットワークを生成する。
興味深いことに、このしきい値はデータセットのサイズに対数的に依存していることが示されており、大きなデータセットを使った実験では、プルーニングによって得られるサブネットの事前トレーニングがより必要になる。
最後に、mnistで訓練された多層パーセプトロンについて、理論結果を実証的に検証する。
関連論文リスト
- Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z) - NeuroFabric: Identifying Ideal Topologies for Training A Priori Sparse
Networks [2.398608007786179]
ディープニューラルネットワークの長いトレーニング時間は、機械学習研究のボトルネックである。
層内トポロジーの選択に関する理論的基礎を提供する。
類似したトポロジが達成可能な精度に大きな差があることがよく示される。
論文 参考訳(メタデータ) (2020-02-19T18:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。