論文の概要: SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit
Sparsity of Neural Network
- arxiv url: http://arxiv.org/abs/2103.01705v1
- Date: Tue, 2 Mar 2021 13:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:53:29.982396
- Title: SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit
Sparsity of Neural Network
- Title(参考訳): SME:ReRAMベースのスパースマルチプリケーションエンジンでニューラルネットワークのビットスパースを絞り込む
- Authors: Fangxin Liu, Wenbo Zhao, Yilong Zhao, Zongwu Wang, Tao Yang, Zhezhi
He, Naifeng Jing, Xiaoyao Liang, Li Jiang
- Abstract要約: 我々はSparse-Multiplication-Engine(SME)という新しいReRAMベースのディープニューラルネットワーク(DNN)アクセラレータを開発した。
まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。
第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。
第三に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。
- 参考スコア(独自算出の注目度): 18.79036546647254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resistive Random-Access-Memory (ReRAM) crossbar is a promising technique for
deep neural network (DNN) accelerators, thanks to its in-memory and in-situ
analog computing abilities for Vector-Matrix Multiplication-and-Accumulations
(VMMs). However, it is challenging for crossbar architecture to exploit the
sparsity in the DNN. It inevitably causes complex and costly control to exploit
fine-grained sparsity due to the limitation of tightly-coupled crossbar
structure. As the countermeasure, we developed a novel ReRAM-based DNN
accelerator, named Sparse-Multiplication-Engine (SME), based on a hardware and
software co-design framework. First, we orchestrate the bit-sparse pattern to
increase the density of bit-sparsity based on existing quantization methods.
Second, we propose a novel weigh mapping mechanism to slice the bits of a
weight across the crossbars and splice the activation results in peripheral
circuits. This mechanism can decouple the tightly-coupled crossbar structure
and cumulate the sparsity in the crossbar. Finally, a superior squeeze-out
scheme empties the crossbars mapped with highly-sparse non-zeros from the
previous two steps. We design the SME architecture and discuss its use for
other quantization methods and different ReRAM cell technologies. Compared with
prior state-of-the-art designs, the SME shrinks the use of crossbars up to 8.7x
and 2.1x using Resent-50 and MobileNet-v2, respectively, with less than 0.3%
accuracy drop on ImageNet.
- Abstract(参考訳): Resistive Random-Access-Memory(ReRAM)クロスバーは、Vector-Matrix Multiplication-and-Accumulations(VMM)のインメモリおよびインサイドアナログコンピューティング能力のおかげで、ディープニューラルネットワーク(DNN)アクセラレータのための有望な技術です。
しかし、DNNの空間性を利用するクロスバーアーキテクチャは困難である。
これは必然的に複雑でコストのかかる制御を引き起こし、密結合のクロスバー構造が制限されるため、きめ細かな粒度を悪用する。
この対策として,ハードウェアとソフトウェアの共同設計フレームワークをベースとした,新しいReRAMベースのDNNアクセラレータであるSparse-Multiplication-Engine(SME)を開発した。
まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。
第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。
この機構は、密結合したクロスバー構造を分離し、クロスバーの間隔を累積することができる。
最後に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。
我々は、SMEアーキテクチャを設計し、他の量子化手法と異なるReRAMセル技術の使用について議論する。
従来の最先端の設計と比較すると、SMEはResent-50とMobileNet-v2を使用してクロスバーの使用を8.7xと2.1xに縮小し、ImageNetの精度は0.3%未満である。
関連論文リスト
- RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。
本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。
NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-09-27T15:35:36Z) - BasisN: Reprogramming-Free RRAM-Based In-Memory-Computing by Basis Combination for Deep Neural Networks [9.170451418330696]
本研究では,任意のクロスバー上のディープニューラルネットワーク(DNN)をリプログラミングせずに高速化するBasisNフレームワークを提案する。
その結果, クロスバーに再プログラミングを適用する場合と比較して, 推論毎のサイクルとエネルギー遅延生成物は1%以下に削減された。
論文 参考訳(メタデータ) (2024-07-04T08:47:05Z) - MST-compression: Compressing and Accelerating Binary Neural Networks
with Minimum Spanning Tree [21.15961593182111]
エッジコンピューティングデバイスにおける計算コストとメモリストレージを削減するために、バイナリニューラルネットワーク(BNN)が広く採用されている。
しかしながら、ニューラルネットワークが精度を向上し、実用的な要件を満たすためにより広く、より深くなるにつれて、計算の負担はバイナリバージョンにおいても大きな課題である。
本稿では,BNNの圧縮と高速化を学習する,最小スパンニングツリー(MST)圧縮法を提案する。
論文 参考訳(メタデータ) (2023-08-26T02:42:12Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。