論文の概要: Provably Efficient Lottery Ticket Discovery
- arxiv url: http://arxiv.org/abs/2108.00259v1
- Date: Sat, 31 Jul 2021 15:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 03:12:40.456452
- Title: Provably Efficient Lottery Ticket Discovery
- Title(参考訳): 効率的な宝くじ発見
- Authors: Cameron R. Wolfe, Qihan Wang, Junhyung Lyle Kim, Anastasios Kyrillidis
- Abstract要約: Lottery ticket hypothesis (LTH) は、ランダムな高密度ネットワークには、高密度ネットワークのパフォーマンスに匹敵するニューラルな(スパース)ワークが含まれていると主張している。
LTHは効率的なネットワークアーキテクチャを発見するのに有用だが、3段階のプロセスである事前トレーニング、プルーニング、再トレーニングは計算コストがかかる。
我々は,入賞券の発見に要する事前学習回数の分析的境界を導出する。
- 参考スコア(独自算出の注目度): 8.375063455625723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lottery ticket hypothesis (LTH) claims that randomly-initialized, dense
neural networks contain (sparse) subnetworks that, when trained an equal amount
in isolation, can match the dense network's performance. Although LTH is useful
for discovering efficient network architectures, its three-step process --
pre-training, pruning, and re-training -- is computationally expensive, as the
dense model must be fully pre-trained. Luckily, "early-bird" tickets can be
discovered within neural networks that are minimally pre-trained, allowing for
the creation of efficient, LTH-inspired training procedures. Yet, no
theoretical foundation of this phenomenon exists. We derive an analytical bound
for the number of pre-training iterations that must be performed for a winning
ticket to be discovered, thus providing a theoretical understanding of when and
why such early-bird tickets exist. By adopting a greedy forward selection
pruning strategy, we directly connect the pruned network's performance to the
loss of the dense network from which it was derived, revealing a threshold in
the number of pre-training iterations beyond which high-performing subnetworks
are guaranteed to exist. We demonstrate the validity of our theoretical results
across a variety of architectures and datasets, including multi-layer
perceptrons (MLPs) trained on MNIST and several deep convolutional neural
network (CNN) architectures trained on CIFAR10 and ImageNet.
- Abstract(参考訳): 抽選券仮説(LTH)は、ランダムに初期化され、密度の高いニューラルネットワークには、同じ量の独立性を訓練された場合、密度の高いネットワークのパフォーマンスにマッチする(スパース)サブネットが含まれていると主張している。
LTHは効率的なネットワークアーキテクチャを発見するのに有用であるが、3段階のプロセスであるプレトレーニング、プルーニング、再トレーニングは計算コストがかかる。
幸運なことに、"early-bird"チケットは、最小限の事前トレーニングでニューラルネットワーク内で発見でき、効率的なlthインスパイアされたトレーニング手順が作成できる。
しかし、この現象の理論的基礎は存在しない。
我々は,入賞チケットの発見に要する事前学習回数の分析的境界を導出し,そのような早期バードチケットがいつ,なぜ存在するのかを理論的に理解する。
グリーディな前方選択プルーニング戦略を採用することで、プルーニングされたネットワークの性能と、その派生した密集したネットワークの損失を直接接続し、ハイパフォーマンスなサブネットワークが存在することを保証した、事前トレーニングされたイテレーションの数のしきい値を明らかにする。
我々は、MNISTでトレーニングされた多層パーセプトロン(MLP)や、CIFAR10とImageNetでトレーニングされたいくつかの深層畳み込みニューラルネットワーク(CNN)アーキテクチャを含む、さまざまなアーキテクチャやデータセットにおける理論的結果の有効性を実証する。
関連論文リスト
- Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z) - NeuroFabric: Identifying Ideal Topologies for Training A Priori Sparse
Networks [2.398608007786179]
ディープニューラルネットワークの長いトレーニング時間は、機械学習研究のボトルネックである。
層内トポロジーの選択に関する理論的基礎を提供する。
類似したトポロジが達成可能な精度に大きな差があることがよく示される。
論文 参考訳(メタデータ) (2020-02-19T18:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。