Fugu-MT 論文翻訳(概要): StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators

論文の概要: StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators

arxiv url: http://arxiv.org/abs/2407.12378v2
Date: Fri, 08 Nov 2024 17:56:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.521312
Title: StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators
Title（参考訳）: StoX-Net: 効率的なメモリ内計算DNN加速器のための部分和の確率的処理
Authors: Ethan G Rogers, Sohan Salahuddin Mugdho, Kshemal Kshemendra Gupte, Cheng Wang,
Abstract要約: ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
参考スコア（独自算出の注目度）: 5.245727758971415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Crossbar-based in-memory computing (IMC) has emerged as a promising platform for hardware acceleration of deep neural networks (DNNs). However, the energy and latency of IMC systems are dominated by the large overhead of the peripheral analog-to-digital converters (ADCs). To address such ADC bottleneck, here we propose to implement stochastic processing of array-level partial sums (PS) for efficient IMC. Leveraging the probabilistic switching of spin-orbit torque magnetic tunnel junctions, the proposed PS processing eliminates the costly ADC, achieving significant improvement in energy and area efficiency. To mitigate accuracy loss, we develop PS-quantization-aware training that enables backward propagation across stochastic PS. Furthermore, a novel scheme with an inhomogeneous sampling length of the stochastic conversion is proposed. When running ResNet20 on the CIFAR-10 dataset, our architecture-to-algorithm co-design demonstrates up to 16x, 8x, and 10x improvement in energy, latency, and area, respectively, compared to IMC with standard ADC. Our optimized design configuration using stochastic PS achieved 130x (24x) improvement in Energy-Delay-Product compared to IMC with full precision ADC (sparse low-bit ADC), while maintaining near-software accuracy at various benchmark classification tasks.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーベースのインメモリコンピューティング(IMC)が登場した。しかし、IMCシステムのエネルギーとレイテンシは、周辺アナログ-デジタルコンバータ(ADC)の大きなオーバーヘッドに支配されている。このようなADCボトルネックに対処するために、効率的なIMCのための配列レベルの部分和(PS)の確率的処理を実装することを提案する。スピン軌道トルク磁気トンネル接合の確率的切替を利用して、提案したPS処理はコストの高いADCを排除し、エネルギーと面積効率を大幅に向上させる。精度損失を軽減するため,確率PS間の後方伝播を可能にするPS量子化対応トレーニングを開発した。さらに,確率変換の不均一なサンプリング長を持つ新しいスキームを提案する。 CIFAR-10データセット上でResNet20を実行する場合、アーキテクチャとアルゴリズムの共設計は、標準ADCのIMCと比較して、それぞれ16倍、8倍、および10倍のエネルギー、レイテンシ、面積の改善を実証します。各種ベンチマーク分類タスクにおいて近ソフトウェア精度を維持しつつ, 完全精度の ADC (sparse Low-bit ADC) のIMC と比較して, 確率PS を用いた設計は130倍 (24倍) 改善された。

関連論文リスト

A Fully Hardware Implemented Accelerator Design in ReRAM Analog Computing without ADCs [5.6496088684920345]
ReRAMベースのアクセラレータは、アナログ・コンピューティング・イン・メモリ(CiM)を介してニューラルネットワークを処理し、超高エネルギー効率を実現する。本研究では、交叉二項化ニューロンを持つニューラルネットワークのSigmoidおよびSoftMaxアクティベーション機能のハードウェア実装について検討する。本稿では、推論二項化ニューロンを活用することにより、ニューラルネットワークの計算を高速化する完全なReRAMベースのアナログコンピューティング加速器(RACA)を提案する。
論文参考訳（メタデータ） (2024-12-27T09:38:19Z)
Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。 BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文参考訳（メタデータ） (2024-12-03T19:20:08Z)
An Event-Based Digital Compute-In-Memory Accelerator with Flexible Operand Resolution and Layer-Wise Weight/Output Stationarity [0.11522790873450185]
ニューラルネットワーク(SNN)をスパイクするためのCIMアクセラレータは、エッジビジョンアプリケーションにおいて、$mu$sレベルの推論レイテンシと超低エネルギーを可能にする、有望なソリューションである。本稿では,任意のオペランド解像度と形状をサポートするデジタルCIMマクロを提案する。我々のアプローチは、IBM DVSジェスチャデータセットで最先端の分類精度95.8%に達しながら、大規模システムで最大90%のエネルギーを節約できる。
論文参考訳（メタデータ） (2024-10-30T14:55:13Z)
Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文参考訳（メタデータ） (2024-01-23T10:27:38Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。 16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文参考訳（メタデータ） (2023-09-04T19:19:39Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Hardware/Software co-design with ADC-Less In-memory Computing Hardware for Spiking Neural Networks [4.7519630770389405]
スパイキングニューラルネットワーク(SNN)は、資源制約されたエッジデバイス上でのシーケンシャルタスクのエネルギー効率の高い実装を実現する大きな可能性を秘めているバイオプレースブルモデルである。我々は,従来のHP-ADCに代えて,センスアンプを1ビットのADCとして使用して,SNNをADC-Less IMCアーキテクチャにデプロイするハードウェア/ソフトウェア共同設計手法を提案する。提案するフレームワークは,ハードウェア・アウェア・トレーニングによって最小限の精度劣化を生じさせ,単純な画像分類タスクを超えて,より複雑な逐次回帰タスクにスケールすることができる。
論文参考訳（メタデータ） (2022-11-03T22:37:49Z)
Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文参考訳（メタデータ） (2022-05-18T17:49:49Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文参考訳（メタデータ） (2022-01-30T16:14:49Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。