論文の概要: Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design
- arxiv url: http://arxiv.org/abs/2309.13015v1
- Date: Fri, 22 Sep 2023 17:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:40:43.137585
- Title: Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design
- Title(参考訳): アルゴリズム, アーキテクチャ, データフロー共設計を用いた効率的なN:MスパースDNN訓練
- Authors: Chao Fang, Wei Sun, Aojun Zhou, Zhongfeng Wang
- Abstract要約: 本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
- 参考スコア(独自算出の注目度): 15.47240906902083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse training is one of the promising techniques to reduce the
computational cost of DNNs while retaining high accuracy. In particular, N:M
fine-grained structured sparsity, where only N out of consecutive M elements
can be nonzero, has attracted attention due to its hardware-friendly pattern
and capability of achieving a high sparse ratio. However, the potential to
accelerate N:M sparse DNN training has not been fully exploited, and there is a
lack of efficient hardware supporting N:M sparse training. To tackle these
challenges, this paper presents a computation-efficient training scheme for N:M
sparse DNNs using algorithm, architecture, and dataflow co-design. At the
algorithm level, a bidirectional weight pruning method, dubbed BDWP, is
proposed to leverage the N:M sparsity of weights during both forward and
backward passes of DNN training, which can significantly reduce the
computational cost while maintaining model accuracy. At the architecture level,
a sparse accelerator for DNN training, namely SAT, is developed to neatly
support both the regular dense operations and the computation-efficient N:M
sparse operations. At the dataflow level, multiple optimization methods ranging
from interleave mapping, pre-generation of N:M sparse weights, and offline
scheduling, are proposed to boost the computational efficiency of SAT. Finally,
the effectiveness of our training scheme is evaluated on a Xilinx VCU1525 FPGA
card using various DNN models and datasets. Experimental results show the SAT
accelerator with the BDWP sparse training method under 2:8 sparse ratio
achieves an average speedup of 1.75x over that with the dense training,
accompanied by a negligible accuracy loss of 0.56% on average. Furthermore, our
proposed training scheme significantly improves the training throughput by
2.97~25.22x and the energy efficiency by 1.36~3.58x over prior FPGA-based
accelerators.
- Abstract(参考訳): スパーストレーニングは高い精度を維持しながらDNNの計算コストを削減するための有望な手法の1つである。
特に N:M の微細構造は, 連続する M 要素のうち N 個の N しかゼロにできないが, ハードウェアフレンドリーなパターンと高いスパース比を達成する能力により注目されている。
しかし、N:MスパースDNNトレーニングを加速する可能性は十分に活用されておらず、N:Mスパーストレーニングを効率的にサポートするハードウェアが不足している。
これらの課題に対処するために,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、BDWPと呼ばれる双方向の重み付け法が提案され、DNNトレーニングの前後パスにおける重みのN:M間隔を利用して、モデル精度を維持しながら計算コストを大幅に削減できる。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方を適切にサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
データフローレベルでは、SATの計算効率を高めるために、インターリーブマッピング、N:Mスパース重みの事前生成、オフラインスケジューリングなど、複数の最適化手法が提案されている。
最後に,各種DNNモデルとデータセットを用いて,Xilinx VCU1525FPGAカード上でのトレーニング手法の有効性を評価する。
実験の結果, BDWPスパース訓練法を2:8スパース比で行うSAT加速器は, 高密度トレーニング法に比べて平均1.75倍の高速化を実現し, 平均0.56%の精度低下が認められた。
さらに,提案手法により,従来のFPGAアクセラレータよりも2.97~25.22x,エネルギー効率が1.36~3.58x向上した。
関連論文リスト
- Exploiting Symmetric Temporally Sparse BPTT for Efficient RNN Training [20.49255973077044]
この研究は、デルタRNNのトレーニングアルゴリズムを記述し、後方伝播フェーズにおける時間的間隔を利用してエッジでのトレーニングの計算要求を減らした。
その結果,Fluent Speech Commandsデータセット上で,56kパラメータのDelta LSTMをトレーニングするための行列演算の$sim$80%の削減効果が認められた。
提案したDelta RNNトレーニングは,限られたコンピューティングリソースを持つエッジデバイス上でのオンラインインクリメンタル学習に有用であることを示す。
論文 参考訳(メタデータ) (2023-12-14T23:07:37Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - A New MRAM-based Process In-Memory Accelerator for Efficient Neural
Network Training with Floating Point Precision [28.458719513745812]
本研究では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。
実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$times$,1.8$times$,2.5$times$をエネルギー,遅延,面積の面で改善できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T04:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。