Fugu-MT 論文翻訳(概要): PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory Processor for Keyword Spotting

論文の概要: PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory Processor for Keyword Spotting

arxiv url: http://arxiv.org/abs/2205.01569v1
Date: Mon, 2 May 2022 09:58:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-05 04:11:41.267315
Title: PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory Processor for Keyword Spotting
Title（参考訳）: PSCNN: 885.86 TOPS/WプログラマブルSRAMベースのキーワードスポッティング用メモリプロセッサ
Authors: Shu-Hung Kuo, and Tian-Sheuan Chang
Abstract要約: 本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。 TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
参考スコア（独自算出の注目度）: 0.10547353841674209
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Computing-in-memory (CIM) has attracted significant attentions in recent years due to its massive parallelism and low power consumption. However, current CIM designs suffer from large area overhead of small CIM macros and bad programmablity for model execution. This paper proposes a programmable CIM processor with a single large sized CIM macro instead of multiple smaller ones for power efficient computation and a flexible instruction set to support various binary 1-D convolution Neural Network (CNN) models in an easy way. Furthermore, the proposed architecture adopts the pooling write-back method to support fused or independent convolution/pooling operations to reduce 35.9\% of latency, and the flexible ping-pong feature SRAM to fit different feature map sizes during layer-by-layer execution.The design fabricated in TSMC 28nm technology achieves 150.8 GOPS throughput and 885.86 TOPS/W power efficiency at 10 MHz when executing our binary keyword spotting model, which has higher power efficiency and flexibility than previous designs.
Abstract（参考訳）: cim(compute-in-memory)は、並列処理の大規模化と消費電力の低さにより、近年で注目を集めている。しかし、現在のCIM設計では、小さなCIMマクロの大幅なオーバーヘッドとモデル実行のプログラム性に悩まされている。本稿では,複数のより小さなCIMマクロではなく,プログラム可能なCIMプロセッサを提案し,様々なバイナリ1-D畳み込みニューラルネットワーク(CNN)モデルをサポートするフレキシブルな命令セットを提案する。 Furthermore, the proposed architecture adopts the pooling write-back method to support fused or independent convolution/pooling operations to reduce 35.9\% of latency, and the flexible ping-pong feature SRAM to fit different feature map sizes during layer-by-layer execution.The design fabricated in TSMC 28nm technology achieves 150.8 GOPS throughput and 885.86 TOPS/W power efficiency at 10 MHz when executing our binary keyword spotting model, which has higher power efficiency and flexibility than previous designs.

関連論文リスト

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
CIM-NET: A Video Denoising Deep Neural Network Model Optimized for Computing-in-Memory Architectures [4.1888033476195226]
CIMチップはメモリセルに統合することで、有望なソリューションを提供する。既存のDNNモデルはCIMアーキテクチャの制約を考慮せずに設計されることが多い。本稿では,2つのイノベーションを取り入れたハードウェア・アルゴリズム協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T02:26:56Z)
An Event-Based Digital Compute-In-Memory Accelerator with Flexible Operand Resolution and Layer-Wise Weight/Output Stationarity [0.11522790873450185]
ニューラルネットワーク(SNN)をスパイクするためのCIMアクセラレータは、エッジビジョンアプリケーションにおいて、$mu$sレベルの推論レイテンシと超低エネルギーを可能にする、有望なソリューションである。本稿では,任意のオペランド解像度と形状をサポートするデジタルCIMマクロを提案する。我々のアプローチは、IBM DVSジェスチャデータセットで最先端の分類精度95.8%に達しながら、大規模システムで最大90%のエネルギーを節約できる。
論文参考訳（メタデータ） (2024-10-30T14:55:13Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文参考訳（メタデータ） (2023-11-12T17:56:39Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文参考訳（メタデータ） (2023-06-10T17:25:58Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。 MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文参考訳（メタデータ） (2020-11-24T18:59:39Z)
MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with Co-designed Compressed Neural Networks [0.6817102408452476]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。 CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
論文参考訳（メタデータ） (2020-10-24T10:31:49Z)
DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。 DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文参考訳（メタデータ） (2020-08-17T07:30:54Z)
Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。脳波信号を分類するためのディープラーニングモデルが登場した。これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文参考訳（メタデータ） (2020-04-24T12:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。