論文の概要: Dynamic Sparsity Is Channel-Level Sparsity Learner
- arxiv url: http://arxiv.org/abs/2305.19454v2
- Date: Fri, 10 Nov 2023 16:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:02:27.048444
- Title: Dynamic Sparsity Is Channel-Level Sparsity Learner
- Title(参考訳): チャンネルレベルのスカラー学習システム「Dynamic Sparsity」
- Authors: Lu Yin, Gen Li, Meng Fang, Li Shen, Tianjin Huang, Zhangyang Wang,
Vlado Menkovski, Xiaolong Ma, Mykola Pechenizkiy, Shiwei Liu
- Abstract要約: ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
- 参考スコア(独自算出の注目度): 91.31071026340746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse training has received an upsurging interest in machine learning due to
its tantalizing saving potential for the entire training process as well as
inference. Dynamic sparse training (DST), as a leading sparse training
approach, can train deep neural networks at high sparsity from scratch to match
the performance of their dense counterparts. However, most if not all DST prior
arts demonstrate their effectiveness on unstructured sparsity with highly
irregular sparse patterns, which receives limited support in common hardware.
This limitation hinders the usage of DST in practice. In this paper, we propose
Channel-aware dynamic sparse (Chase), which for the first time seamlessly
translates the promise of unstructured dynamic sparsity to GPU-friendly
channel-level sparsity (not fine-grained N:M or group sparsity) during one
end-to-end training process, without any ad-hoc operations. The resulting small
sparse networks can be directly accelerated by commodity hardware, without
using any particularly sparsity-aware hardware accelerators. This appealing
outcome is partially motivated by a hidden phenomenon of dynamic sparsity:
off-the-shelf unstructured DST implicitly involves biased parameter
reallocation across channels, with a large fraction of channels (up to 60%)
being sparser than others. By progressively identifying and removing these
channels during training, our approach translates unstructured sparsity to
channel-wise sparsity. Our experimental results demonstrate that Chase achieves
1.7 X inference throughput speedup on common GPU devices without compromising
accuracy with ResNet-50 on ImageNet. We release our codes in
https://github.com/luuyin/chase.
- Abstract(参考訳): スパーストレーニングは、トレーニングプロセス全体と推論に対する具体的な貯蓄能力によって、機械学習への関心が高まっている。
ダイナミックスパーストレーニング(DST)は、スパークストレーニングの先駆的なアプローチであり、深いニューラルネットワークをスクラッチから高い間隔でトレーニングすることで、密度の高いニューラルネットワークのパフォーマンスを満足させることができる。
しかし、ほとんどのDST先行技術は、非常に不規則なスパースパターンを持つ非構造的スパース性に対して効果を示し、共通のハードウェアでしかサポートされない。
この制限は実際にはDSTの使用を妨げる。
本稿では,非構造化動的スパース性の約束を,アドホックな操作を伴わずに,一方のエンドツーエンドトレーニングプロセスにおいて,gpuフレンドリーなチャネルレベルのスパース性(細粒度n:mやグループスパース性ではない)にシームレスに翻訳するチャネルアウェア動的スパース(chase)を提案する。
結果として生じる小さなスパースネットワークは、特に疎いハードウェアアクセラレータを使わずに、コモディティハードウェアによって直接加速することができる。
既成の非構造dstは暗黙的にチャネル間のバイアス付きパラメータの再配置を伴い、多くのチャネル(最大60%)は他のチャネルよりもスパースである。
トレーニング中にこれらのチャネルを段階的に識別・除去することにより,非構造的疎度からチャネルワイド疎度へ変換する。
実験の結果,画像ネット上でのResNet-50の精度を損なうことなく,一般的なGPUデバイス上での1.7X推論スループットの高速化を実現した。
コードはhttps://github.com/luuyin/chaseでリリースします。
関連論文リスト
- Dynamic Sparse Training with Structured Sparsity [11.778353786208765]
ダイナミックスパーストレーニング(DST)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成する。
本研究では, 微細構造N:M空間の変形を学習するために, スパース・ツー・スパースDST法, Structured RigL (SRigL)を提案する。
オンライン推論用CPUでは3.4x/2.5x、GPUでは1.7x/13.0x、バッチサイズは256である。
論文 参考訳(メタデータ) (2023-05-03T17:48:55Z) - SparseProp: Efficient Sparse Backpropagation for Faster Training of
Neural Networks [20.18957052535565]
トレーニング中のニューラルネットワークの重みが不足している場合に特化して、バックプロパゲーションアルゴリズムの新たな効率的なバージョンを提供する。
我々のアルゴリズムは、任意の(非構造的な)スパーシリティと共通層タイプに適用されるため、一般的なものである。
我々は、すでに分離されたネットワークを用いたトランスファーラーニングや、スパースネットワークをスクラッチからトレーニングすることで、エンドツーエンドのランタイム実験で高速化できることを示す。
論文 参考訳(メタデータ) (2023-02-09T18:54:05Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Gradient Flow in Sparse Neural Networks and How Lottery Tickets Win [8.700592446069395]
NNは、推論のための計算/記憶の一部を使用すれば、高密度NNの一般化と一致し、効率的なトレーニングを可能にする可能性がある。
本稿では,非構造的スパースNNをランダムな初期化からネーティブに訓練すると,一般化が著しく悪化することを示す。
また,Luttery Tickets (LTs) は勾配流を改善せず,その成功は,それらが引き起こす刈り込み解を再学習することにあることも示している。
論文 参考訳(メタデータ) (2020-10-07T17:26:08Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。