論文の概要: Good Students Play Big Lottery Better
- arxiv url: http://arxiv.org/abs/2101.03255v2
- Date: Mon, 18 Jan 2021 07:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:11:05.873060
- Title: Good Students Play Big Lottery Better
- Title(参考訳): 良い生徒が大きな宝くじを弾く
- Authors: Haoyu Ma, Tianlong Chen, Ting-Kuei Hu, Chenyu You, Xiaohui Xie,
Zhangyang Wang
- Abstract要約: 宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
- 参考スコア(独自算出の注目度): 84.6111281091602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lottery ticket hypothesis suggests that a dense neural network contains a
sparse sub-network that can match the test accuracy of the original dense net
when trained in isolation from (the same) random initialization. However, the
hypothesis failed to generalize to larger dense networks such as ResNet-50. As
a remedy, recent studies demonstrate that a sparse sub-network can still be
obtained by using a rewinding technique, which is to re-train it from
early-phase training weights or learning rates of the dense model, rather than
from random initialization.
Is rewinding the only or the best way to scale up lottery tickets? This paper
proposes a new, simpler and yet powerful technique for re-training the
sub-network, called "Knowledge Distillation ticket" (KD ticket). Rewinding
exploits the value of inheriting knowledge from the early training phase to
improve lottery tickets in large networks. In comparison, KD ticket addresses a
complementary possibility - inheriting useful knowledge from the late training
phase of the dense model. It is achieved by leveraging the soft labels
generated by the trained dense model to re-train the sub-network, instead of
the hard labels. Extensive experiments are conducted using several large deep
networks (e.g ResNet-50 and ResNet-110) on CIFAR-10 and ImageNet datasets.
Without bells and whistles, when applied by itself, KD ticket performs on par
or better than rewinding, while being nearly free of hyperparameters or ad-hoc
selection. KD ticket can be further applied together with rewinding, yielding
state-of-the-art results for large-scale lottery tickets.
- Abstract(参考訳): 宝くじの仮説は、高密度ニューラルネットワークは、(同じ)ランダム初期化から訓練されたとき、元の高密度ネットのテスト精度に一致するスパースサブネットワークを含んでいることを示唆している。
しかし、この仮説はResNet-50のようなより大きなネットワークに一般化できなかった。
近年の研究では、ランダム初期化ではなく、初期モデルの訓練重量や学習率から再学習する巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
rewindingは宝くじをスケールアップする唯一の方法か、あるいは最良の方法か?
本稿では,KDチケット(Knowledge Distillation ticket)と呼ばれるサブネットワークの再学習手法を提案する。
rewindingは、大規模ネットワークでの抽選チケットを改善するために、初期のトレーニングフェーズから知識を継承する価値を利用する。
対照的に、KDチケットは相補的な可能性に対処し、密集モデルの後期トレーニングフェーズから有用な知識を継承する。
トレーニングされた高密度モデルによって生成されたソフトラベルを活用して、ハードラベルの代わりにサブネットワークをトレーニングする。
CIFAR-10とImageNetデータセット上の複数の大きなディープネットワーク(ResNet-50やResNet-110など)を使用して大規模な実験を行う。
ベルやホイッスルがなければ、kdチケットはリワインディングと同等かそれ以上の性能を発揮するが、ハイパーパラメータやアドホックな選択がほとんどない。
KDチケットはさらに巻き戻しと共に適用でき、大規模宝くじの最先端結果が得られる。
関連論文リスト
- When Layers Play the Lottery, all Tickets Win at Initialization [0.0]
プルーニングはディープネットワークの計算コストを削減する手法である。
そこで本研究では,プルーニング処理によって層が取り除かれた場合の当選チケットの発見を提案する。
優勝チケットは特にトレーニングフェーズをスピードアップし、二酸化炭素排出量の最大51%を削減しています。
論文 参考訳(メタデータ) (2023-01-25T21:21:15Z) - Data-Efficient Double-Win Lottery Tickets from Robust Pre-training [129.85939347733387]
本稿では,事前学習したモデルからのサブネットワークを,様々な下流タスクで独立に転送できるDouble-Win Lottery Ticketsを紹介する。
頑健な事前訓練は、標準的なものよりも優れたパフォーマンスで、スペーサーのダブルウィン・宝くじを製作する傾向にある。
論文 参考訳(メタデータ) (2022-06-09T20:52:50Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - Towards Understanding Iterative Magnitude Pruning: Why Lottery Tickets
Win [20.97456178983006]
宝くじの仮説では、スパースワークはランダムに密集したネットワークに存在し、密集したネットワークと同じ精度でトレーニングすることができる。
線形モード接続に関して安定なトレーニング手法を用いることで、大規模なネットワークを初期化に完全に巻き戻すことができることを示す。
論文 参考訳(メタデータ) (2021-06-13T10:06:06Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Lottery Ticket Implies Accuracy Degradation, Is It a Desirable
Phenomenon? [43.47794674403988]
ディープモデル圧縮では、最近の発見 "Lottery Ticket Hypothesis" (LTH) (Frankle & Carbin) は、勝利チケットが存在する可能性があることを指摘しました。
勝利特性の背後にある基礎的条件と理論的根拠を調査し,その基礎的理由が重みと最終訓練重みの相関関係に大きく関係していることを見いだした。
宝くじのスパーストレーニングを一貫して上回る"pruning & fine-tuning"方式を提案します。
論文 参考訳(メタデータ) (2021-02-19T14:49:46Z) - Winning Lottery Tickets in Deep Generative Models [64.79920299421255]
本稿では,GANやVAEなどの深層生成モデルにおいて,入賞チケットの存在を示す。
また、異なる生成モデル間での当選チケットの転送可能性を示す。
論文 参考訳(メタデータ) (2020-10-05T21:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。