論文の概要: ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for
In-DRAM CNN Processing
- arxiv url: http://arxiv.org/abs/2105.12781v1
- Date: Wed, 26 May 2021 18:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 13:43:31.141725
- Title: ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for
In-DRAM CNN Processing
- Title(参考訳): ATRIA: In-DRAM CNN処理のためのビット並列確率的算術に基づく加速器
- Authors: Supreeth Mysore Shivanandamurthy, Ishan. G. Thakkar, Sayed Ahmad
Salehi
- Abstract要約: ATRIAは、CNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器である。
ATRIAはCNNの推測精度がわずか3.5%低下し、フレーム/秒(FPS)が最大3.2倍、効率が最大10倍改善されている。
- 参考スコア(独自算出の注目度): 0.5257115841810257
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the rapidly growing use of Convolutional Neural Networks (CNNs) in
real-world applications related to machine learning and Artificial Intelligence
(AI), several hardware accelerator designs for CNN inference and training have
been proposed recently. In this paper, we present ATRIA, a novel bit-pArallel
sTochastic aRithmetic based In-DRAM Accelerator for energy-efficient and
high-speed inference of CNNs. ATRIA employs light-weight modifications in DRAM
cell arrays to implement bit-parallel stochastic arithmetic based acceleration
of multiply-accumulate (MAC) operations inside DRAM. ATRIA significantly
improves the latency, throughput, and efficiency of processing CNN inferences
by performing 16 MAC operations in only five consecutive memory operation
cycles. We mapped the inference tasks of four benchmark CNNs on ATRIA to
compare its performance with five state-of-the-art in-DRAM CNN accelerators
from prior work. The results of our analysis show that ATRIA exhibits only 3.5%
drop in CNN inference accuracy and still achieves improvements of up to 3.2x in
frames-per-second (FPS) and up to 10x in efficiency (FPS/W/mm2), compared to
the best-performing in-DRAM accelerator from prior work.
- Abstract(参考訳): 機械学習と人工知能(AI)に関する現実の応用において、畳み込みニューラルネットワーク(CNN)が急速に普及し、CNN推論とトレーニングのためのハードウェアアクセラレータ設計が最近提案されている。
本稿では、エネルギー効率とCNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器ATRIAを提案する。
ATRIAはDRAMセルアレイに軽量な修正を加え、DRAM内での乗算(MAC)演算のビット並列確率演算に基づく加速度を実装する。
ATRIAは、CNN推論処理のレイテンシ、スループット、効率を大幅に改善し、わずか5連続のメモリ操作サイクルで16のMAC操作を実行する。
我々は、ATRIA上の4つのベンチマークCNNの推論タスクをマッピングし、その性能を以前の5つの最先端のDRAM CNNアクセラレータと比較した。
分析の結果,ATRIAのCNN推論精度は3.5%低下し,フレーム/秒(FPS)の最大3.2倍,効率(FPS/W/mm2)の最大10倍の改善が得られた。
関連論文リスト
- PENDRAM: Enabling High-Performance and Energy-Efficient Processing of Deep Neural Networks through a Generalized DRAM Data Mapping Policy [6.85785397160228]
畳み込みニューラルネットワーク(CNN)は、機械学習タスクを解決する最先端のソリューションとして登場した。
CNNアクセラレータは、高オフチップメモリ(DRAM)アクセスレイテンシとエネルギのために、パフォーマンスとエネルギー効率の課題に直面している。
本稿では,高性能でエネルギー効率の良いCNN加速を実現する新しい設計空間探索手法であるPENDRAMを提案する。
論文 参考訳(メタデータ) (2024-08-05T12:11:09Z) - Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator
for Vision Applications [108.44482683870888]
Deformable Convolution v4 (DCNv4) は、広帯域の視覚アプリケーション向けに設計された、高効率で効率的な演算子である。
DCNv4は、前任のDCNv3の制限に対処し、2つの重要な拡張を加えた。
画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-11T14:53:24Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Performance Analysis of DNN Inference/Training with Convolution and
non-Convolution Operations [5.647410731290209]
本研究は、ASICベースの一般的なハードウェアアクセラレーションプラットフォームのための新しいパフォーマンス分析フレームワーク、SimDITを提案する。
SimDITはCNN推論とトレーニングの両方の畳み込みと非畳み込み操作を包括的にカバーしている。
SimDITはResNet-50推論のための一般的な静的リソース割り当てよりも18倍の性能向上を実現している。
論文 参考訳(メタデータ) (2023-06-29T08:11:36Z) - Accelerating Neural Network Inference with Processing-in-DRAM: From the
Edge to the Cloud [9.927754948343326]
ニューラルネットワークの性能(およびエネルギー効率)は、計算またはメモリリソースによって拘束できる。
PIM(Processing-in-Memory)パラダイムは、メモリバウンドNNを高速化する実行可能なソリューションである。
NN性能とエネルギー効率向上のための3つの最先端PIMアーキテクチャを解析する。
論文 参考訳(メタデータ) (2022-09-19T11:46:05Z) - MAC-DO: An Efficient Output-Stationary GEMM Accelerator for CNNs Using
DRAM Technology [2.918940961856197]
本稿では,DRAMを用いた高速かつ低消費電力なインサイトアクセラレータMAC-DOを提案する。
マルチビット乗算(MAC)操作を1サイクルでサポートする。
MAC-DOアレイは、出力定常マッピングに基づいて行列乗算を効率的に加速することができ、ディープニューラルネットワーク(DNN)で実行される計算の大部分をサポートする。
論文 参考訳(メタデータ) (2022-07-16T07:33:20Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。