論文の概要: PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting
- arxiv url: http://arxiv.org/abs/2205.01569v1
- Date: Mon, 2 May 2022 09:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 04:11:41.267315
- Title: PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting
- Title(参考訳): PSCNN: 885.86 TOPS/WプログラマブルSRAMベースのキーワードスポッティング用メモリプロセッサ
- Authors: Shu-Hung Kuo, and Tian-Sheuan Chang
- Abstract要約: 本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。
提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。
TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
- 参考スコア(独自算出の注目度): 0.10547353841674209
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Computing-in-memory (CIM) has attracted significant attentions in recent
years due to its massive parallelism and low power consumption. However,
current CIM designs suffer from large area overhead of small CIM macros and bad
programmablity for model execution. This paper proposes a programmable CIM
processor with a single large sized CIM macro instead of multiple smaller ones
for power efficient computation and a flexible instruction set to support
various binary 1-D convolution Neural Network (CNN) models in an easy way.
Furthermore, the proposed architecture adopts the pooling write-back method to
support fused or independent convolution/pooling operations to reduce 35.9\% of
latency, and the flexible ping-pong feature SRAM to fit different feature map
sizes during layer-by-layer execution.The design fabricated in TSMC 28nm
technology achieves 150.8 GOPS throughput and 885.86 TOPS/W power efficiency at
10 MHz when executing our binary keyword spotting model, which has higher power
efficiency and flexibility than previous designs.
- Abstract(参考訳): cim(compute-in-memory)は、並列処理の大規模化と消費電力の低さにより、近年で注目を集めている。
しかし、現在のCIM設計では、小さなCIMマクロの大幅なオーバーヘッドとモデル実行のプログラム性に悩まされている。
本稿では,複数のより小さなCIMマクロではなく,プログラム可能なCIMプロセッサを提案し,様々なバイナリ1-D畳み込みニューラルネットワーク(CNN)モデルをサポートするフレキシブルな命令セットを提案する。
Furthermore, the proposed architecture adopts the pooling write-back method to support fused or independent convolution/pooling operations to reduce 35.9\% of latency, and the flexible ping-pong feature SRAM to fit different feature map sizes during layer-by-layer execution.The design fabricated in TSMC 28nm technology achieves 150.8 GOPS throughput and 885.86 TOPS/W power efficiency at 10 MHz when executing our binary keyword spotting model, which has higher power efficiency and flexibility than previous designs.
関連論文リスト
- An Event-Based Digital Compute-In-Memory Accelerator with Flexible Operand Resolution and Layer-Wise Weight/Output Stationarity [0.11522790873450185]
ニューラルネットワーク(SNN)をスパイクするためのCIMアクセラレータは、エッジビジョンアプリケーションにおいて、$mu$sレベルの推論レイテンシと超低エネルギーを可能にする、有望なソリューションである。
本稿では,任意のオペランド解像度と形状をサポートするデジタルCIMマクロを提案する。
我々のアプローチは、IBM DVSジェスチャデータセットで最先端の分類精度95.8%に達しながら、大規模システムで最大90%のエネルギーを節約できる。
論文 参考訳(メタデータ) (2024-10-30T14:55:13Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with
Co-designed Compressed Neural Networks [0.6817102408452476]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。
CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。
計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
論文 参考訳(メタデータ) (2020-10-24T10:31:49Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。