論文の概要: TIMELY: Pushing Data Movements and Interfaces in PIM Accelerators
Towards Local and in Time Domain
- arxiv url: http://arxiv.org/abs/2005.01206v1
- Date: Sun, 3 May 2020 23:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 07:04:30.650272
- Title: TIMELY: Pushing Data Movements and Interfaces in PIM Accelerators
Towards Local and in Time Domain
- Title(参考訳): TIMELY:PIM加速器のローカル・インタイム領域へのデータ移動とインタフェースの推進
- Authors: Weitao Li, Pengfei Xu, Yang Zhao, Haitong Li, Yuan Xie, Yingyan Lin
- Abstract要約: 抵抗ランダムアクセスメモリ(ReRAM)ベースのプロセッシングインメモリ(R$2$PIM)アクセラレータは、Thingデバイスの制約されたリソースとConvolutional/Deep Neural Networks(CNNs/DNNs)の禁制的なエネルギーコストとのギャップを埋めることを約束している。
我々はR$2$PIMアクセラレーターにおける3つの省エネ機会を識別する:アナログデータ局所性、時間領域のインターフェイス、入力アクセスの削減、そして、TIMELYと呼ばれる革新的なR$2$PIMアクセラレーターを提案する。
- 参考スコア(独自算出の注目度): 27.66305184703716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resistive-random-access-memory (ReRAM) based processing-in-memory (R$^2$PIM)
accelerators show promise in bridging the gap between Internet of Thing
devices' constrained resources and Convolutional/Deep Neural Networks'
(CNNs/DNNs') prohibitive energy cost. Specifically, R$^2$PIM accelerators
enhance energy efficiency by eliminating the cost of weight movements and
improving the computational density through ReRAM's high density. However, the
energy efficiency is still limited by the dominant energy cost of input and
partial sum (Psum) movements and the cost of digital-to-analog (D/A) and
analog-to-digital (A/D) interfaces. In this work, we identify three
energy-saving opportunities in R$^2$PIM accelerators: analog data locality,
time-domain interfacing, and input access reduction, and propose an innovative
R$^2$PIM accelerator called TIMELY, with three key contributions: (1) TIMELY
adopts analog local buffers (ALBs) within ReRAM crossbars to greatly enhance
the data locality, minimizing the energy overheads of both input and Psum
movements; (2) TIMELY largely reduces the energy of each single D/A (and A/D)
conversion and the total number of conversions by using time-domain interfaces
(TDIs) and the employed ALBs, respectively; (3) we develop an only-once input
read (O$^2$IR) mapping method to further decrease the energy of input accesses
and the number of D/A conversions. The evaluation with more than 10 CNN/DNN
models and various chip configurations shows that, TIMELY outperforms the
baseline R$^2$PIM accelerator, PRIME, by one order of magnitude in energy
efficiency while maintaining better computational density (up to 31.2$\times$)
and throughput (up to 736.6$\times$). Furthermore, comprehensive studies are
performed to evaluate the effectiveness of the proposed ALB, TDI, and O$^2$IR
innovations in terms of energy savings and area reduction.
- Abstract(参考訳): 抵抗ランダムアクセスメモリ(ReRAM)ベースの処理インメモリ(R$^2$PIM)アクセラレータは、Thingデバイスの制約されたリソースとConvolutional/Deep Neural Networks(CNNs/DNNs)の禁制エネルギーコストのギャップを埋めることの約束を示す。
具体的には、R$^2$PIM加速器は重量運動のコストを削減し、ReRAMの高密度による計算密度を向上させることでエネルギー効率を向上させる。
しかし、エネルギー効率は入力と部分和(Psum)運動の圧倒的なエネルギーコストとデジタル・アナログ(D/A)インタフェースとアナログ・デジタル・デジタル(A/D)インターフェースのコストによって制限されている。
In this work, we identify three energy-saving opportunities in R$^2$PIM accelerators: analog data locality, time-domain interfacing, and input access reduction, and propose an innovative R$^2$PIM accelerator called TIMELY, with three key contributions: (1) TIMELY adopts analog local buffers (ALBs) within ReRAM crossbars to greatly enhance the data locality, minimizing the energy overheads of both input and Psum movements; (2) TIMELY largely reduces the energy of each single D/A (and A/D) conversion and the total number of conversions by using time-domain interfaces (TDIs) and the employed ALBs, respectively; (3) we develop an only-once input read (O$^2$IR) mapping method to further decrease the energy of input accesses and the number of D/A conversions.
10以上のCNN/DNNモデルと様々なチップ構成による評価は、TIMELYがベースラインのR$^2$PIMアクセラレータであるPRIMEを1桁のエネルギー効率で上回り、計算密度(最大31.2$\times$)とスループット(最大736.6$\times$)を維持していることを示している。
さらに, 提案するALB, TDI, O$^2$IR技術の有効性を省エネルギーと面積削減の観点から評価するために, 総合的研究を行った。
関連論文リスト
- SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - E-BATCH: Energy-Efficient and High-Throughput RNN Batching [0.0]
Recurrent Network(RNN)は、複数の要求にまたがる厳密なデータ利用のために、ハードウェア依存度が低い。
RNNは、バッチ化された入力長が時間ステップで大きく異なる可能性があるため、大量のパディングを必要とする。
本稿では,RNNアクセラレーターに対して,バッチ毎の低スパンかつエネルギー効率なシーケンス推論スキームであるE-BATCHを提案する。
論文 参考訳(メタデータ) (2020-09-22T16:22:23Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - A New MRAM-based Process In-Memory Accelerator for Efficient Neural
Network Training with Floating Point Precision [28.458719513745812]
本研究では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。
実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$times$,1.8$times$,2.5$times$をエネルギー,遅延,面積の面で改善できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T04:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。