論文の概要: Energy-efficient SNN Architecture using 3nm FinFET Multiport SRAM-based CIM with Online Learning
- arxiv url: http://arxiv.org/abs/2410.09130v1
- Date: Fri, 11 Oct 2024 12:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:13:24.688711
- Title: Energy-efficient SNN Architecture using 3nm FinFET Multiport SRAM-based CIM with Online Learning
- Title(参考訳): 3nm FinFETマルチポートSRAMを用いたオンライン学習型CIMを用いた省エネルギーSNNアーキテクチャ
- Authors: Lucas Huijbregts, Liu Hsiao-Hsuan, Paul Detterer, Said Hamdioui, Amirreza Yousefzadeh, Rajendra Bishnoi,
- Abstract要約: スパイキングニューラルネットワーク(SNN)推論に最適化された新しいCIMアクセラレータを提案する。
3nmのFinFET技術における128$times$128配列の結果、スピードが3.1$times$改善され、エネルギー効率が2.2$times$改善された。
- 参考スコア(独自算出の注目度): 0.32925565514060606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Artificial Intelligence (AI) computation systems face challenges, primarily from the memory-wall issue, limiting overall system-level performance, especially for Edge devices with constrained battery budgets, such as smartphones, wearables, and Internet-of-Things sensor systems. In this paper, we propose a new SRAM-based Compute-In-Memory (CIM) accelerator optimized for Spiking Neural Networks (SNNs) Inference. Our proposed architecture employs a multiport SRAM design with multiple decoupled Read ports to enhance the throughput and Transposable Read-Write ports to facilitate online learning. Furthermore, we develop an Arbiter circuit for efficient data-processing and port allocations during the computation. Results for a 128$\times$128 array in 3nm FinFET technology demonstrate a 3.1$\times$ improvement in speed and a 2.2$\times$ enhancement in energy efficiency with our proposed multiport SRAM design compared to the traditional single-port design. At system-level, a throughput of 44 MInf/s at 607 pJ/Inf and 29mW is achieved.
- Abstract(参考訳): 現在の人工知能(AI)計算システムは、主にメモリウォールの問題から問題に直面しており、特にスマートフォン、ウェアラブル、Internet-of-Thingsセンサーシステムといった、バッテリー予算が制限されたエッジデバイスにおいて、システムレベルのパフォーマンスを制限している。
本稿では、スパイキングニューラルネットワーク(SNN)推論に最適化されたSRAMベースの新しいCompute-In-Memory(CIM)アクセラレータを提案する。
提案アーキテクチャでは、複数の分離されたReadポートを備えたマルチポートSRAM設計を採用し、スループットとTransposable Read-Writeポートを強化し、オンライン学習を容易にする。
さらに,効率的なデータ処理とポート割り当てを行うArbiter回路を開発した。
3nmFinFET技術における128ドルのアレイの結果は、従来のシングルポート設計と比較して3.1ドルのスピード向上と2.2ドルのエネルギー効率向上を示す。
システムレベルでは、スループットが44 MInf/sで607 pJ/Inf、29mWとなる。
関連論文リスト
- PIM-AI: A Novel Architecture for High-Efficiency LLM Inference [0.4746684680917117]
本稿では,大規模言語モデル推論用に設計された新しいDDR5/LPDDR5 PIMアーキテクチャであるPIM-AIを紹介する。
クラウドベースのシナリオでは、PIM-AIはクエリ毎秒あたりの3年間のTCOを最大6.94倍削減する。
モバイルシナリオでは、PIM-AIは最先端のモバイルSOCと比較してトークン当たりのエネルギーを10倍から20倍に削減する。
論文 参考訳(メタデータ) (2024-11-26T10:54:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - Energy-Efficient On-Board Radio Resource Management for Satellite
Communications via Neuromorphic Computing [59.40731173370976]
本研究は,エネルギー効率のよい脳誘発機械学習モデルのオンボード無線リソース管理への応用について検討する。
関連するワークロードでは、Loihi 2に実装されたスパイクニューラルネットワーク(SNN)の方が精度が高く、CNNベースのリファレンスプラットフォームと比較して消費電力が100ドル以上削減される。
論文 参考訳(メタデータ) (2023-08-22T03:13:57Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting [0.10547353841674209]
本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。
提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。
TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
論文 参考訳(メタデータ) (2022-05-02T09:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。