論文の概要: STEP: Learning N:M Structured Sparsity Masks from Scratch with
Precondition
- arxiv url: http://arxiv.org/abs/2302.01172v1
- Date: Thu, 2 Feb 2023 15:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:24:58.957903
- Title: STEP: Learning N:M Structured Sparsity Masks from Scratch with
Precondition
- Title(参考訳): STEP: 事前条件付きスクラッチによるN:M構造空間の学習
- Authors: Yucheng Lu, Shivani Agrawal, Suvinay Subramanian, Oleg Rybakov,
Christopher De Sa, Amir Yazdanbakhsh
- Abstract要約: そこで我々は,N:M構造を持つ空間マスクを2相で学習するAdam-AwareのレシピであるSTEPを提案する。
STEPは、分散変化を動的にサンプリングすることで、2つの位相の切替点を自動的に識別する。
そこで本研究では,STEPがベースラインレシピの精度低下を軽減し,アグレッシブな構造的疎度比に頑健であることを示す。
- 参考スコア(独自算出の注目度): 34.271242093957476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent innovations on hardware (e.g. Nvidia A100) have motivated learning N:M
structured sparsity masks from scratch for fast model inference. However,
state-of-the-art learning recipes in this regime (e.g. SR-STE) are proposed for
non-adaptive optimizers like momentum SGD, while incurring non-trivial accuracy
drop for Adam-trained models like attention-based LLMs. In this paper, we first
demonstrate such gap origins from poorly estimated second moment (i.e.
variance) in Adam states given by the masked weights. We conjecture that
learning N:M masks with Adam should take the critical regime of variance
estimation into account. In light of this, we propose STEP, an Adam-aware
recipe that learns N:M masks with two phases: first, STEP calculates a reliable
variance estimate (precondition phase) and subsequently, the variance remains
fixed and is used as a precondition to learn N:M masks (mask-learning phase).
STEP automatically identifies the switching point of two phases by dynamically
sampling variance changes over the training trajectory and testing the sample
concentration. Empirically, we evaluate STEP and other baselines such as ASP
and SR-STE on multiple tasks including CIFAR classification, machine
translation and LLM fine-tuning (BERT-Base, GPT-2). We show STEP mitigates the
accuracy drop of baseline recipes and is robust to aggressive structured
sparsity ratios.
- Abstract(参考訳): 最近のハードウェア(例えばNvidia A100)の革新は、高速モデル推論のためにスクラッチからN:M構造化された空間マスクを学習する動機となった。
しかし、この体制における最先端の学習レシピ(SR-STEなど)は、モーメントSGDのような非適応最適化に対して提案されている。
本稿では,マスク付き重みによって与えられるアダム状態の2次モーメント(分散)の低さから,このようなギャップの起源を最初に示す。
我々は、AdamとN:Mマスクを学習することは、分散推定の臨界状態を考慮するべきであると推測する。
そこで本研究では,N:Mマスクを2つのフェーズで学習するAdam-AwareのレシピであるSTEPを提案する。まず,STEPは信頼性のある分散推定(プレコンディションフェーズ)を算出し,その後,その分散を固定し,N:Mマスク(マスク学習フェーズ)を学習するための前提条件として使用する。
STEPは、トレーニング軌道上の分散変化を動的にサンプリングし、サンプル濃度をテストすることにより、2つの位相の切り替え点を自動的に識別する。
CIFAR分類, 機械翻訳, LLMファインチューニング(BERT-Base, GPT-2)など, ASP や SR-STE などのSTEP などのベースラインを複数タスクで評価した。
ステップはベースラインレシピの精度低下を緩和し,攻撃的な構造的スパーシティ比に頑健であることを示す。
関連論文リスト
- Calibrating the Rigged Lottery: Making All Tickets Reliable [14.353428281239665]
信頼性校正を改善したスパースモデルを生成するための新しいスパーストレーニング手法を提案する。
本手法は,計算量や記憶負荷をわずかに増加させるだけで,同時に精度を向上する。
論文 参考訳(メタデータ) (2023-02-18T15:53:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded
learning [16.526326919313924]
本研究では, プルーニングマスクの損失を最適化することにより, プルーニングマスクの学習方法を検討する。
線形回帰の設定における誘導適応予測器のトレーニングダイナミクスを解析する。
PAC-Bayes一般化誤差境界は, 先行データと後続データとの間の特徴アライメントの変化の大きさによって制御されることを示す。
論文 参考訳(メタデータ) (2021-10-22T14:25:22Z) - Fire Together Wire Together: A Dynamic Pruning Approach with
Self-Supervised Mask Prediction [12.86325214182021]
動的モデルプルーニング(Dynamic Model pruning)は、デプロイ中の各入力サンプルに対する異なるサブネットワークの推測を可能にする、最近の方法である。
現在の動的手法は、間隔損失を誘導することによって正規化を通じて連続的なチャネルゲーティングを学ぶことに依存している。
我々は,CIFARおよびImageNet上で,VGG,ResNet,MobileNetなどのニューラルネットワークの実験を行った。
論文 参考訳(メタデータ) (2021-10-15T17:39:53Z) - Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。
深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。
mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文 参考訳(メタデータ) (2020-12-15T14:39:57Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Variance-reduced Language Pretraining via a Mask Proposal Network [5.819397109258169]
自己指導型学習(英: self-supervised learning, a.k.a.)は、自然言語処理において重要である。
本稿では,勾配分散低減の観点から問題に取り組む。
そこで我々は,マスク提案の最適分布を近似したMAsk Network(MAPNet)を導入した。
論文 参考訳(メタデータ) (2020-08-12T14:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。