論文の概要: Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training
- arxiv url: http://arxiv.org/abs/2205.15322v1
- Date: Mon, 30 May 2022 16:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:23:52.814153
- Title: Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training
- Title(参考訳): 多数のチケットを1つにまとめる: スパースニューラルネットワークトレーニングのパフォーマンス向上
- Authors: Lu Yin, Vlado Menkovski, Meng Fang, Tianjin Huang, Yulong Pei, Mykola
Pechenizkiy, Decebal Constantin Mocanu, Shiwei Liu
- Abstract要約: 本研究では,2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチであるtextbfSup-tkets を提案する。
CIFAR-10/100 および ImageNet 上の様々なモダンアーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合されていることを示す。
- 参考スコア(独自算出の注目度): 32.30355584300427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on sparse neural network training (sparse training) have shown
that a compelling trade-off between performance and efficiency can be achieved
by training intrinsically sparse neural networks from scratch. Existing sparse
training methods usually strive to find the best sparse subnetwork possible in
one single run, without involving any expensive dense or pre-training steps.
For instance, dynamic sparse training (DST), as one of the most prominent
directions, is capable of reaching a competitive performance of dense training
by iteratively evolving the sparse topology during the course of training. In
this paper, we argue that it is better to allocate the limited resources to
create multiple low-loss sparse subnetworks and superpose them into a stronger
one, instead of allocating all resources entirely to find an individual
subnetwork. To achieve this, two desiderata are required: (1) efficiently
producing many low-loss subnetworks, the so-called cheap tickets, within one
training process limited to the standard training time used in dense training;
(2) effectively superposing these cheap tickets into one stronger subnetwork
without going over the constrained parameter budget. To corroborate our
conjecture, we present a novel sparse training approach, termed
\textbf{Sup-tickets}, which can satisfy the above two desiderata concurrently
in a single sparse-to-sparse training process. Across various modern
architectures on CIFAR-10/100 and ImageNet, we show that Sup-tickets integrates
seamlessly with the existing sparse training methods and demonstrates
consistent performance improvement.
- Abstract(参考訳): スパースニューラルネットワークトレーニング(スパーストレーニング)に関する最近の研究は、本質的にスパースニューラルネットワークをスクラッチからトレーニングすることで、パフォーマンスと効率の説得力のあるトレードオフを実現することができることを示した。
既存のスパーストレーニング手法は通常、1回のランで可能な最高のスパースサブネットを見つけるよう努力する。
例えば、ダイナミックスパーストレーニング(DST)は、最も顕著な方向の一つであり、トレーニング中にスパーストポロジを反復的に進化させることで、密集トレーニングの競争性能に達することができる。
本稿では、複数の低損失サブネットワークを作成し、それらをより強力なサブネットワークに重ね合わせるために、限られたリソースを割り当てる方が良いと論じる。
これを実現するためには,(1)高濃度トレーニングで使用される標準訓練時間に限定された1つのトレーニングプロセス内で,いわゆる安価チケットである低損失サブネットワークを効率的に生産すること,(2)制約付きパラメータ予算を超過することなく,より強力なサブネットワークに効果的に重ね合わせること,の2つのデシデラタが必要となる。
本稿では,この2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチを提案する。
CIFAR-10/100 および ImageNet 上の様々な近代的アーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合され,一貫した性能向上を示すことを示す。
関連論文リスト
- Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。