Fugu-MT 論文翻訳(概要): NicePIM: Design Space Exploration for Processing-In-Memory DNN Accelerators with 3D-Stacked-DRAM

論文の概要: NicePIM: Design Space Exploration for Processing-In-Memory DNN Accelerators with 3D-Stacked-DRAM

arxiv url: http://arxiv.org/abs/2305.19041v1
Date: Tue, 30 May 2023 13:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 16:02:17.459007
Title: NicePIM: Design Space Exploration for Processing-In-Memory DNN Accelerators with 3D-Stacked-DRAM
Title（参考訳）: NicePIM:3DスタックDRAMを用いたメモリ内DNN高速化のための空間探索
Authors: Junpeng Wang, Mengke Ge, Bo Ding, Qi Xu, Song Chen, Yi Kang
Abstract要約: NicePIMはDRAM-PIMシステムのハードウェア構成を効率的に最適化できる。レイテンシとエネルギーコストを平均で37%と28%削減した高品質なDNNマッピングスキームを生成することができる。
参考スコア（独自算出の注目度）: 10.802292525404994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the widespread use of deep neural networks(DNNs) in intelligent systems, DNN accelerators with high performance and energy efficiency are greatly demanded. As one of the feasible processing-in-memory(PIM) architectures, 3D-stacked-DRAM-based PIM(DRAM-PIM) architecture enables large-capacity memory and low-cost memory access, which is a promising solution for DNN accelerators with better performance and energy efficiency. However, the low-cost characteristics of stacked DRAM and the distributed manner of memory access and data storing require us to rebalance the hardware design and DNN mapping. In this paper, we propose NicePIM to efficiently explore the design space of hardware architecture and DNN mapping of DRAM-PIM accelerators, which consists of three key components: PIM-Tuner, PIM-Mapper and Data-Scheduler. PIM-Tuner optimizes the hardware configurations leveraging a DNN model for classifying area-compliant architectures and a deep kernel learning model for identifying better hardware parameters. PIM-Mapper explores a variety of DNN mapping configurations, including parallelism between branches of DNN, DNN layer partitioning, DRAM capacity allocation and data layout pattern in DRAM to generate high-hardware-utilization DNN mapping schemes for various hardware configurations. The Data-Scheduler employs an integer-linear-programming-based data scheduling algorithm to alleviate the inter-PIM-node communication overhead of data-sharing brought by DNN layer partitioning. Experimental results demonstrate that NicePIM can optimize hardware configurations for DRAM-PIM systems effectively and can generate high-quality DNN mapping schemes with latency and energy cost reduced by 37% and 28% on average respectively compared to the baseline method.
Abstract（参考訳）: インテリジェントシステムにおけるディープニューラルネットワーク(DNN)の普及に伴い、高性能でエネルギー効率の高いDNNアクセラレータが大幅に要求される。実現可能なPIMアーキテクチャの1つとして、3DスタックDRAMベースのPIM(DRAM-PIM)アーキテクチャが大容量メモリと低コストメモリアクセスを可能にしている。しかし、スタック化DRAMの低コスト特性とメモリアクセスとデータ格納の分散化は、ハードウェア設計とDNNマッピングの再バランスを必要とする。本稿では,ハードウェアアーキテクチャとDRAM-PIMアクセラレータの設計空間を効率的に探索するNicePIMを提案し,PIM-Tuner,PIM-Mapper,Data-Schedulerの3つの重要なコンポーネントからなるDRAM-PIMアクセラレータのDNNマッピングを提案する。 PIM-Tunerは、領域準拠アーキテクチャを分類するためのDNNモデルと、より良いハードウェアパラメータを特定するためのディープカーネル学習モデルを活用するハードウェア構成を最適化する。 PIM-Mapperは、DNNのブランチ間の並列性、DNN層のパーティショニング、DRAMのキャパシティ割り当て、DRAMのデータレイアウトパターンなど、さまざまなDNNマッピング構成を調査し、様々なハードウェア構成のための高ハードウエア利用DNNマッピングスキームを生成する。 Data-Schedulerは整数線形プログラミングに基づくデータスケジューリングアルゴリズムを用いて、DNN層分割によるデータ共有のPIMノード間通信オーバーヘッドを軽減する。実験結果から,NicePIMはDRAM-PIMシステムのハードウェア構成を効果的に最適化し,ベースライン法と比較して平均で37%,エネルギーコストが28%削減された高品質DNNマッピングスキームを生成することができることがわかった。

関連論文リスト

DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
Spiker+: a framework for the generation of efficient Spiking Neural Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。 Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文参考訳（メタデータ） (2024-01-02T10:42:42Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud [9.927754948343326]
ニューラルネットワークの性能(およびエネルギー効率)は、計算またはメモリリソースによって拘束できる。 PIM(Processing-in-Memory)パラダイムは、メモリバウンドNNを高速化する実行可能なソリューションである。 NN性能とエネルギー効率向上のための3つの最先端PIMアーキテクチャを解析する。
論文参考訳（メタデータ） (2022-09-19T11:46:05Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。 SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文参考訳（メタデータ） (2021-10-18T11:30:29Z)
Impact of On-Chip Interconnect on In-Memory Acceleration of Deep Neural Networks [11.246977770747526]
接続密度の増加はチップ上のデータ移動を増加させる。本稿では,P2Pベースの相互接続が,チップ上の大量のデータ移動を処理できないことを示す。任意のDNNに対して最適な相互接続を選択する手法を提案する。
論文参考訳（メタデータ） (2021-07-06T02:44:00Z)
PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文参考訳（メタデータ） (2021-05-08T16:39:24Z)
A New MRAM-based Process In-Memory Accelerator for Efficient Neural Network Training with Floating Point Precision [28.458719513745812]
本研究では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$times$,1.8$times$,2.5$times$をエネルギー,遅延,面積の面で改善できることがわかった。
論文参考訳（メタデータ） (2020-03-02T04:58:54Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。