論文の概要: StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators
- arxiv url: http://arxiv.org/abs/2407.12378v1
- Date: Wed, 17 Jul 2024 07:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 17:57:42.073889
- Title: StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators
- Title(参考訳): StoX-Net: 効率的なメモリ内計算DNN加速器のための部分和の確率的処理
- Authors: Ethan G Rogers, Sohan Salahuddin Mugdho, Kshemal Kshemendra Gupte, Cheng Wang,
- Abstract要約: ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
しかし、IMCシステムのエネルギーとレイテンシは、周辺アナログ・デジタルコンバータ(ADC)の大きなオーバーヘッドに支配されている。
- 参考スコア(独自算出の注目度): 5.245727758971415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crossbar-based in-memory computing (IMC) has emerged as a promising platform for hardware acceleration of deep neural networks (DNNs). However, the energy and latency of IMC systems are dominated by the large overhead of the peripheral analog-to-digital converters (ADCs). To address such ADC bottleneck, here we propose to implement stochastic processing of array-level partial sums (PS) for efficient IMC. Leveraging the probabilistic switching of spin-orbit torque magnetic tunnel junctions, the proposed PS processing eliminates the costly ADC, achieving significant improvement in energy and area efficiency. To mitigate accuracy loss, we develop PS-quantization-aware training that enables backward propagation across stochastic PS. Furthermore, a novel scheme with an inhomogeneous sampling length of the stochastic conversion is proposed. When running ResNet20 on the CIFAR-10 dataset, our architecture-to-algorithm co-design demonstrates up to 22x, 30x, and 142x improvement in energy, latency, and area, respectively, compared to IMC with standard ADC. Our optimized design configuration using stochastic PS achieved 666x (111x) improvement in Energy-Delay-Product compared to IMC with full precision ADC (sparse low-bit ADC), while maintaining near-software accuracy at various benchmark classification tasks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーベースのインメモリコンピューティング(IMC)が登場した。
しかし、IMCシステムのエネルギーとレイテンシは、周辺アナログ・デジタルコンバータ(ADC)の大きなオーバーヘッドに支配されている。
このようなADCボトルネックに対処するために、効率的なIMCのための配列レベルの部分和(PS)の確率的処理を実装することを提案する。
スピン軌道トルク磁気トンネル接合の確率的切替を利用して、提案したPS処理はコストの高いADCを排除し、エネルギーと面積効率を大幅に向上させる。
精度損失を軽減するため,確率PS間の後方伝播を可能にするPS量子化対応トレーニングを開発した。
さらに,確率変換の不均一なサンプリング長を持つ新しいスキームを提案する。
CIFAR-10データセット上でResNet20を実行すると、アーキテクチャとアルゴリズムの共設計により、標準ADCのIMCと比較して、それぞれ22倍、30倍、142倍のエネルギー、レイテンシ、面積が改善される。
確率PSを用いた最適化設計は, 各種ベンチマーク分類タスクにおいて近ソフトウェア精度を維持しつつ, 完全精度のATC (Sparse Low-bit ADC) のIMCと比較して666x(111x) の改善を実現した。
関連論文リスト
- An Event-Based Digital Compute-In-Memory Accelerator with Flexible Operand Resolution and Layer-Wise Weight/Output Stationarity [0.11522790873450185]
ニューラルネットワーク(SNN)をスパイクするためのCIMアクセラレータは、エッジビジョンアプリケーションにおいて、$mu$sレベルの推論レイテンシと超低エネルギーを可能にする、有望なソリューションである。
本稿では,任意のオペランド解像度と形状をサポートするデジタルCIMマクロを提案する。
我々のアプローチは、IBM DVSジェスチャデータセットで最先端の分類精度95.8%に達しながら、大規模システムで最大90%のエネルギーを節約できる。
論文 参考訳(メタデータ) (2024-10-30T14:55:13Z) - Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Hardware/Software co-design with ADC-Less In-memory Computing Hardware
for Spiking Neural Networks [4.7519630770389405]
スパイキングニューラルネットワーク(SNN)は、資源制約されたエッジデバイス上でのシーケンシャルタスクのエネルギー効率の高い実装を実現する大きな可能性を秘めているバイオプレースブルモデルである。
我々は,従来のHP-ADCに代えて,センスアンプを1ビットのADCとして使用して,SNNをADC-Less IMCアーキテクチャにデプロイするハードウェア/ソフトウェア共同設計手法を提案する。
提案するフレームワークは,ハードウェア・アウェア・トレーニングによって最小限の精度劣化を生じさせ,単純な画像分類タスクを超えて,より複雑な逐次回帰タスクにスケールすることができる。
論文 参考訳(メタデータ) (2022-11-03T22:37:49Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。