論文の概要: FAT: An In-Memory Accelerator with Fast Addition for Ternary Weight
Neural Networks
- arxiv url: http://arxiv.org/abs/2201.07634v1
- Date: Wed, 19 Jan 2022 14:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:39:30.276618
- Title: FAT: An In-Memory Accelerator with Fast Addition for Ternary Weight
Neural Networks
- Title(参考訳): FAT: 3次重みニューラルネットワークのための高速付加型インメモリ加速器
- Authors: Shien Zhu, Luan H.K. Duong, Hui Chen, Di Liu, Weichen Liu
- Abstract要約: Binary and Ternary Weight Networks (BWNsとTWNs) は8ビットと4ビットの量子化に対してユニークな優位性を持つ。
CNNの乗算操作を、In-Memory-Computing (IMC)デバイスで好まれる追加で置き換える。
我々は,TWNのための新しいMCアクセラレータとしてFATを提案する。
- 参考スコア(独自算出の注目度): 9.42234425529863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) demonstrate great performance in various
applications but have high computational complexity. Quantization is applied to
reduce the latency and storage cost of CNNs. Among the quantization methods,
Binary and Ternary Weight Networks (BWNs and TWNs) have a unique advantage over
8-bit and 4-bit quantization. They replace the multiplication operations in
CNNs with additions, which are favoured on In-Memory-Computing (IMC) devices.
IMC acceleration for BWNs has been widely studied. However, though TWNs have
higher accuracy and better sparsity, IMC acceleration for TWNs has limited
research. TWNs on existing IMC devices are inefficient because the sparsity is
not well utilized, and the addition operation is not efficient.
In this paper, we propose FAT as a novel IMC accelerator for TWNs. First, we
propose a Sparse Addition Control Unit, which utilizes the sparsity of TWNs to
skip the null operations on zero weights. Second, we propose a fast addition
scheme based on the memory Sense Amplifier to avoid the time overhead of both
carry propagation and writing back the carry to the memory cells. Third, we
further propose a Combined-Stationary data mapping to reduce the data movement
of both activations and weights and increase the parallelism of memory columns.
Simulation results show that for addition operations at the Sense Amplifier
level, FAT achieves 2.00X speedup, 1.22X power efficiency and 1.22X area
efficiency compared with State-Of-The-Art IMC accelerator ParaPIM. FAT achieves
10.02X speedup and 12.19X energy efficiency compared with ParaPIM on networks
with 80% sparsity
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、様々なアプリケーションで優れた性能を示すが、計算複雑性が高い。
量子化はcnnのレイテンシとストレージコストを削減するために適用される。
量子化法のうち、BWNとTWNは8ビットと4ビットの量子化に対して独自の優位性を持つ。
CNNの乗算操作を、In-Memory-Computing (IMC)デバイスで好まれる追加で置き換える。
BWNのICC加速は広く研究されている。
しかし、TWNsは精度が高く、親和性も優れているが、TWNsのIMC加速は限定的な研究である。
既存のIMCデバイス上のTWNは、空間が十分に利用されておらず、追加操作が効率的でないため、非効率である。
本稿では,TWNのための新しいMCアクセラレータとしてFATを提案する。
まず,twnのスパース性を利用してゼロウェイトのヌル演算をスキップするスパース加算制御部を提案する。
第2に,メモリセルへの搬送と搬送の時間オーバーヘッドを回避するため,メモリセンス増幅器に基づく高速加算方式を提案する。
第3に,アクティベーションと重みの双方のデータ移動を低減し,メモリ列の並列性を向上させるために,静止データマッピングを提案する。
シミュレーションの結果,Sense Amplifier レベルでの追加動作では,FAT は State-Of-The-Art IMC アクセラレータParaPIM と比較して2.00X の高速化, 1.22X の電力効率, 1.22X の面積効率を実現している。
FATは10.02倍の高速化と12.19倍のエネルギー効率を達成する
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - CREW: Computation Reuse and Efficient Weight Storage for
Hardware-accelerated MLPs and RNNs [1.0635248457021496]
本稿では,ReuseとEfficient Weight Storage機構を実装したハードウェアアクセラレータCREWを紹介する。
CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。
CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。
論文 参考訳(メタデータ) (2021-07-20T11:10:54Z) - S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN
Acceleration [21.110711058376534]
スパシティの爆発は、モバイルデバイス上での量子畳み込みニューラルネットワーク(CNN)推論を加速させる重要なテクニックである。
本稿では,重みとアクティベーションの両面において,構造的疎度,具体的には密度境界ブロック(DBB)の疎度を利用することを提案する。
S2TAは,関節重量とDBB空間の活性化を利用するサイストリックアレイベースのCNNアクセラレータである。
論文 参考訳(メタデータ) (2021-07-16T15:57:06Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。