論文の概要: S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN
Acceleration
- arxiv url: http://arxiv.org/abs/2107.07983v1
- Date: Fri, 16 Jul 2021 15:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 16:32:53.982388
- Title: S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN
Acceleration
- Title(参考訳): S2TA:エネルギー効率の良いモバイルCNN高速化のための構造空間の爆発
- Authors: Zhi-Gang Liu, Paul N. Whatmough, Yuhao Zhu, Matthew Mattina
- Abstract要約: スパシティの爆発は、モバイルデバイス上での量子畳み込みニューラルネットワーク(CNN)推論を加速させる重要なテクニックである。
本稿では,重みとアクティベーションの両面において,構造的疎度,具体的には密度境界ブロック(DBB)の疎度を利用することを提案する。
S2TAは,関節重量とDBB空間の活性化を利用するサイストリックアレイベースのCNNアクセラレータである。
- 参考スコア(独自算出の注目度): 21.110711058376534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploiting sparsity is a key technique in accelerating quantized
convolutional neural network (CNN) inference on mobile devices. Prior sparse
CNN accelerators largely exploit un-structured sparsity and achieve significant
speedups. Due to the unbounded, largely unpredictable sparsity patterns,
however, exploiting unstructured sparsity requires complicated hardware design
with significant energy and area overhead, which is particularly detrimental to
mobile/IoT inference scenarios where energy and area efficiency are crucial. We
propose to exploit structured sparsity, more specifically, Density Bound Block
(DBB) sparsity for both weights and activations. DBB block tensors bound the
maximum number of non-zeros per block. DBB thus exposes statically predictable
sparsity patterns that enable lean sparsity-exploiting hardware. We propose new
hardware primitives to implement DBB sparsity for (static) weights and
(dynamic) activations, respectively, with very low overheads. Building on top
of the primitives, we describe S2TA, a systolic array-based CNN accelerator
that exploits joint weight and activation DBB sparsity and new dimensions of
data reuse unavailable on the traditional systolic array. S2TA in 16nm achieves
more than 2x speedup and energy reduction compared to a strong baseline of a
systolic array with zero-value clock gating, over five popular CNN benchmarks.
Compared to two recent non-systolic sparse accelerators, Eyeriss v2 (65nm) and
SparTen (45nm), S2TA in 65nm uses about 2.2x and 3.1x less energy per
inference, respectively.
- Abstract(参考訳): sparsityの利用は、モバイルデバイス上で量子化畳み込みニューラルネットワーク(cnn)の推論を加速する上で重要な技術である。
以前のスパースCNNアクセラレーターは、非構造的空間を多く利用し、大幅なスピードアップを実現している。
しかし、非有界で予測不可能な空間パターンのため、非構造化の空間性を利用するには、かなりのエネルギーと面積オーバーヘッドを持つ複雑なハードウェア設計が必要であり、特にエネルギーと面積効率が不可欠であるモバイル/IoT推論シナリオに有害である。
本稿では,より具体的には,重みとアクティベーションの両方に対して密度結合ブロック(dbb)のスパーシティを活用することを提案する。
DBBブロックテンソルはブロック当たりのゼロでない最大数を制限している。
これにより、DBBは静的に予測可能なスパンサーティパターンを公開し、リーンスパンサーティ露光ハードウェアを実現する。
我々は,(静的)重みと(動的)アクティベーションに対してdbbスパーシティを実装するための新しいハードウェアプリミティブを提案する。
プリミティブの上に構築されたS2TAは、従来のシストリックアレイでは利用できない、結合重みとアクティベーションDBB空間と新しいデータ再利用の次元を利用する、シストリックアレイベースのCNNアクセラレータである。
16nmのS2TAは、0値のクロックゲーティングを持つサイストリックアレイの強いベースラインと比較して、2倍以上のスピードアップとエネルギー削減を達成する。
最近の非シストリックスパース加速器であるeyeriss v2 (65nm) とsparten (45nm) と比較して、65nmのs2taは、それぞれ2.2倍と3.1倍のエネルギーを消費している。
関連論文リスト
- BDC-Occ: Binarized Deep Convolution Unit For Binarized Occupancy Network [55.21288428359509]
既存の3D占有ネットワークは重要なハードウェアリソースを必要としており、エッジデバイスの配備を妨げている。
本稿では,バイナライズド・ディープ・コンボリューション(BDC)ユニットを提案し,バイナライズド・ディープ・コンボリューション・レイヤの数を増やしつつ性能を効果的に向上させる。
我々のBDC-Occモデルは既存の3D占有ネットワークをバイナライズするために提案したBDCユニットを適用して作成する。
論文 参考訳(メタデータ) (2024-05-27T10:44:05Z) - Signed Binary Weight Networks [17.07866119979333]
2つの重要なアルゴリズム技術は、効率の良い推論を可能にすることを約束している。
本稿では,さらに効率を向上させるために,署名バイナリネットワークと呼ばれる新しい手法を提案する。
提案手法は,イメージネットとCIFAR10データセットの2進法で同等の精度を達成し,69%の空間性を実現する。
論文 参考訳(メタデータ) (2022-11-25T00:19:21Z) - Two Sparsities Are Better Than One: Unlocking the Performance Benefits
of Sparse-Sparse Networks [0.0]
本稿では,既存のハードウェア上での二重スパースネットワークの性能を大幅に向上させる手法であるComplementary Sparsityを紹介する。
FPGAのスループットとエネルギー効率を最大100倍向上させる。
我々の結果は、重量とアクティベーションの間隔が将来のAIモデルを効率的にスケーリングするための強力な組み合わせになり得ることを示唆している。
論文 参考訳(メタデータ) (2021-12-27T20:41:01Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference [16.812184391068786]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、効率的なハードウェアアクセラレーションを必要とする。
systolic array (SA)は、処理要素(PE)のパイプライン化された2D配列である
CNN推論を特に最適化するために,従来のSAアーキテクチャの2つの重要な改善点について述べる。
論文 参考訳(メタデータ) (2020-05-16T20:47:56Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。