論文の概要: Training Your Sparse Neural Network Better with Any Mask
- arxiv url: http://arxiv.org/abs/2206.12755v1
- Date: Sun, 26 Jun 2022 00:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:13:21.325606
- Title: Training Your Sparse Neural Network Better with Any Mask
- Title(参考訳): マスクでスパースニューラルネットワークを訓練する
- Authors: Ajay Jaiswal, Haoyu Ma, Tianlong Chen, Ying Ding, Zhangyang Wang
- Abstract要約: 空間と時間の複雑さが減少するため、大規模ニューラルネットワークで高品質で独立したトレーニング可能なスパースマスクを作成することが非常に望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するスパーストレーニングテクニックをテキストでカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
- 参考スコア(独自算出の注目度): 106.134361318518
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pruning large neural networks to create high-quality, independently trainable
sparse masks, which can maintain similar performance to their dense
counterparts, is very desirable due to the reduced space and time complexity.
As research effort is focused on increasingly sophisticated pruning methods
that leads to sparse subnetworks trainable from the scratch, we argue for an
orthogonal, under-explored theme: improving training techniques for pruned
sub-networks, i.e. sparse training. Apart from the popular belief that only the
quality of sparse masks matters for sparse training, in this paper we
demonstrate an alternative opportunity: one can \textit{carefully customize the
sparse training techniques to deviate from the default dense network training
protocols}, consisting of introducing ``ghost" neurons and skip connections at
the early stage of training, and strategically modifying the initialization as
well as labels. Our new sparse training recipe is generally applicable to
improving training from scratch with various sparse masks. By adopting our
newly curated techniques, we demonstrate significant performance gains across
various popular datasets (CIFAR-10, CIFAR-100, TinyImageNet), architectures
(ResNet-18/32/104, Vgg16, MobileNet), and sparse mask options (lottery ticket,
SNIP/GRASP, SynFlow, or even randomly pruning), compared to the default
training protocols, especially at high sparsity levels.
- Abstract(参考訳): 大規模ニューラルネットワークを用いて高品質で独立したトレーニング可能なスパースマスクを作成することで、高密度のマスクと同じようなパフォーマンスを維持することができる。
研究の取り組みは、スクラッチからトレーニング可能なスパースサブネットに繋がる、より洗練されたプルーニング手法に重点を置いているので、我々は直交し、探索されていないテーマ、すなわちスパーストレーニングの訓練技術を改善することについて議論する。
スパースマスクの品質のみがスパーストレーニングにとって重要であるという一般の信念とは別に,本論文では,次の新たな機会を実証する。 "`ghost"ニューロンの導入とトレーニングの初期段階での接続のスキップ,初期化とラベルの戦略的変更からなる,デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためのスパーストレーニングテクニックを慎重にカスタマイズすることができる。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
新たにキュレートした手法を採用することで、一般的なデータセット(CIFAR-10、CIFAR-100、TinyImageNet)、アーキテクチャ(ResNet-18/32/104、Vgg16、MobileNet)、スパースマスクオプション(ロタリーチケット、SNIP/GRASP、SynFlow、さらにはランダムプルーニング)、そしてデフォルトのトレーニングプロトコル、特に高空間レベルでのパフォーマンス向上を示す。
関連論文リスト
- Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。
私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。
我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文 参考訳(メタデータ) (2022-09-15T04:54:02Z) - Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training [32.30355584300427]
本研究では,2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチであるtextbfSup-tkets を提案する。
CIFAR-10/100 および ImageNet 上の様々なモダンアーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-05-30T16:01:32Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。