論文の概要: MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with
Co-designed Compressed Neural Networks
- arxiv url: http://arxiv.org/abs/2010.12861v2
- Date: Tue, 25 May 2021 05:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:47:50.913716
- Title: MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with
Co-designed Compressed Neural Networks
- Title(参考訳): MARS:共設計圧縮ニューラルネットワークを用いたマルチマクロアーキテクチャSRAM CIMベースの加速器
- Authors: Syuan-Hao Sie, Jye-Luen Lee, Yi-Ren Chen, Chih-Cheng Lu, Chih-Cheng
Hsieh, Meng-Fan Chang, Kea-Tiong Tang
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。
CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。
計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
- 参考スコア(独自算出の注目度): 0.6817102408452476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) play a key role in deep learning
applications. However, the large storage overheads and the substantial
computation cost of CNNs are problematic in hardware accelerators.
Computing-in-memory (CIM) architecture has demonstrated great potential to
effectively compute large-scale matrix-vector multiplication. However, the
intensive multiply and accumulation (MAC) operations executed at the crossbar
array and the limited capacity of CIM macros remain bottlenecks for further
improvement of energy efficiency and throughput. To reduce computation costs,
network pruning and quantization are two widely studied compression methods to
shrink the model size. However, most of the model compression algorithms can
only be implemented in digital-based CNN accelerators. For implementation in a
static random access memory (SRAM) CIM-based accelerator, the model compression
algorithm must consider the hardware limitations of CIM macros, such as the
number of word lines and bit lines that can be turned on at the same time, as
well as how to map the weight to the SRAM CIM macro. In this study, a software
and hardware co-design approach is proposed to design an SRAM CIM-based CNN
accelerator and an SRAM CIM-aware model compression algorithm. To lessen the
high-precision MAC required by batch normalization (BN), a quantization
algorithm that can fuse BN into the weights is proposed. Furthermore, to reduce
the number of network parameters, a sparsity algorithm that considers a CIM
architecture is proposed. Last, MARS, a CIM-based CNN accelerator that can
utilize multiple SRAM CIM macros as processing units and support a sparsity
neural network, is proposed.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。
しかし、ハードウェアアクセラレーターでは、大きなストレージオーバーヘッドとCNNの相当な計算コストが問題となる。
コンピュータ・イン・メモリ(CIM)アーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。
しかし、クロスバーアレイで実行される集中的乗算および蓄積(MAC)演算とCIMマクロの限られた容量は、エネルギー効率とスループットのさらなる向上のためにボトルネックのままである。
計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
しかし、モデル圧縮アルゴリズムのほとんどは、デジタルベースのcnnアクセラレータでしか実装できない。
静的ランダムアクセスメモリ (sram) cimベースの加速器の実装のために、モデル圧縮アルゴリズムは、sram cimマクロに重みをマップする方法と同様に、同時にオンにできるワード行数やビット行数のような、cimマクロのハードウェア上の制限を考慮する必要がある。
本研究では、SRAM CIMベースのCNNアクセラレータとSRAM CIM対応モデル圧縮アルゴリズムを設計するためのソフトウェアとハードウェアの共同設計手法を提案する。
バッチ正規化(BN)に必要な高精度MACを減らすために,BNを重みに融合させる量子化アルゴリズムを提案する。
さらに,ネットワークパラメータ数を削減すべく,CIMアーキテクチャを考慮した空間性アルゴリズムを提案する。
最後に、複数のSRAM CIMマクロを処理単位として利用し、スパシティニューラルネットワークをサポートするCIMベースのCNNアクセラレータMARSを提案する。
関連論文リスト
- BasisN: Reprogramming-Free RRAM-Based In-Memory-Computing by Basis Combination for Deep Neural Networks [9.170451418330696]
本研究では,任意のクロスバー上のディープニューラルネットワーク(DNN)をリプログラミングせずに高速化するBasisNフレームワークを提案する。
その結果, クロスバーに再プログラミングを適用する場合と比較して, 推論毎のサイクルとエネルギー遅延生成物は1%以下に削減された。
論文 参考訳(メタデータ) (2024-07-04T08:47:05Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2024-01-15T13:35:21Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data
Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。
DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。
最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文 参考訳(メタデータ) (2023-10-31T12:49:54Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting [0.10547353841674209]
本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。
提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。
TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
論文 参考訳(メタデータ) (2022-05-02T09:58:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。