論文の概要: Optimal Fine-Grained N:M sparsity for Activations and Neural Gradients
- arxiv url: http://arxiv.org/abs/2203.10991v1
- Date: Mon, 21 Mar 2022 13:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 21:45:22.696407
- Title: Optimal Fine-Grained N:M sparsity for Activations and Neural Gradients
- Title(参考訳): 活性化と神経勾配の最適細粒度n:mスパーシティ
- Authors: Brian Chmiel, Itay Hubara, Ron Banner and Daniel Soudry
- Abstract要約: ディープラーニングにおいて、粒度の細かいN:M空間は、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2で削減する。
本稿では,この手法が活性化や勾配にどのように利用できるかを検討する。
- 参考スコア(独自算出の注目度): 34.07702872143145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning, fine-grained N:M sparsity reduces the data footprint and
bandwidth of a General Matrix multiply (GEMM) by x2, and doubles throughput by
skipping computation of zero values. So far, it was only used to prune weights.
We examine how this method can be used also for activations and their gradients
(i.e., "neural gradients"). To this end, we first establish tensor-level
optimality criteria. Previous works aimed to minimize the mean-square-error
(MSE) of each pruned block. We show that while minimization of the MSE works
fine for pruning the activations, it catastrophically fails for the neural
gradients. Instead, we show that optimal pruning of the neural gradients
requires an unbiased minimum-variance pruning mask. We design such specialized
masks, and find that in most cases, 1:2 sparsity is sufficient for training,
and 2:4 sparsity is usually enough when this is not the case. Further, we
suggest combining several such methods together in order to speed up training
even more. A reference implementation is supplied in
https://github.com/brianchmiel/Act-and-Grad-structured-sparsity.
- Abstract(参考訳): ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2で削減し、ゼロ値の計算をスキップすることでスループットを2倍にする。
これまでのところ、重量を減らすためにしか使われていなかった。
本手法は, 活性化とその勾配(すなわち「神経勾配」)にどのように使用できるかを検討する。
この目的のために、まずテンソルレベルの最適性基準を確立する。
以前の作業は、各プルーンドブロックの平均2乗誤差(MSE)を最小化することを目的としていた。
MSEの最小化は活性化を抑えるのに有効であるが、破壊的に神経勾配に失敗する。
代わりに、神経勾配の最適プラニングにはバイアスのない最小分散プラニングマスクが必要であることを示した。
このような特殊なマスクを設計し、ほとんどの場合、1:2スパシティはトレーニングに十分であり、2:4スパシティは通常、そうでない場合に十分である。
さらに,より高速なトレーニングを実現するために,複数の手法を組み合わせることを提案する。
リファレンス実装はhttps://github.com/brianchmiel/Act-and-Grad-structured-sparsityで提供される。
関連論文リスト
- S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。
その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。
論文 参考訳(メタデータ) (2024-09-13T08:29:36Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Fire Together Wire Together: A Dynamic Pruning Approach with
Self-Supervised Mask Prediction [12.86325214182021]
動的モデルプルーニング(Dynamic Model pruning)は、デプロイ中の各入力サンプルに対する異なるサブネットワークの推測を可能にする、最近の方法である。
現在の動的手法は、間隔損失を誘導することによって正規化を通じて連続的なチャネルゲーティングを学ぶことに依存している。
我々は,CIFARおよびImageNet上で,VGG,ResNet,MobileNetなどのニューラルネットワークの実験を行った。
論文 参考訳(メタデータ) (2021-10-15T17:39:53Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Superpolynomial Lower Bounds for Learning One-Layer Neural Networks
using Gradient Descent [25.589302381660453]
また,2乗空間分布に対する勾配勾配勾配を用いた場合,時間的誤差が小さいことを示す。
分類では,任意の統計的クエリ(SQ)が時間内に小さなテストエラーを達成できないという,より強力な結果が得られる。
論文 参考訳(メタデータ) (2020-06-22T05:15:06Z) - Neural gradients are near-lognormal: improved quantized and sparse
training [35.28451407313548]
神経勾配の分布は概ね対数正規である。
神経勾配の計算と記憶の負担を軽減するための2つの閉形式解析法を提案する。
我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)精度の低い場合において,最大85%の勾配間隔を達成した最初の論文である。
論文 参考訳(メタデータ) (2020-06-15T07:00:15Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。