論文の概要: DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference
- arxiv url: http://arxiv.org/abs/2305.07376v1
- Date: Fri, 12 May 2023 10:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:18:00.835385
- Title: DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference
- Title(参考訳): DAISM:DNNトレーニングと推論のためのデジタル近似In-SRAM乗算器ベースの加速器
- Authors: Lorenzo Sonnino, Shaswot Shresthamali, Yuan He and Masaaki Kondo
- Abstract要約: 行列乗算演算は、メモリと処理要素の間のデータ移動によってボトルネックとなる。
本稿では,畳み込みニューラルネットワークのアクセラレータであるDAISM-Digital Approximate In-SRAM Multiplierアーキテクチャを提案する。
同様の設計制約下では、DAISMは最先端のベースラインと比較してエネルギー消費を25%削減し、サイクル数を43%削減する。
- 参考スコア(独自算出の注目度): 10.945007948606255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNNs are one of the most widely used Deep Learning models. The matrix
multiplication operations for DNNs incur significant computational costs and
are bottlenecked by data movement between the memory and the processing
elements. Many specialized accelerators have been proposed to optimize matrix
multiplication operations. One popular idea is to use Processing-in-Memory
where computations are performed by the memory storage element, thereby
reducing the overhead of data movement between processor and memory. However,
most PIM solutions rely either on novel memory technologies that have yet to
mature or bit-serial computations which have significant performance overhead
and scalability issues. In this work, an in-SRAM digital multiplier is proposed
to take the best of both worlds, i.e. performing GEMM in memory but using only
conventional SRAMs without the drawbacks of bit-serial computations. This
allows the user to design systems with significant performance gains using
existing technologies with little to no modifications. We first design a novel
approximate bit-parallel multiplier that approximates multiplications with
bitwise OR operations by leveraging multiple wordlines activation in the SRAM.
We then propose DAISM - Digital Approximate In-SRAM Multiplier architecture, an
accelerator for convolutional neural networks, based on our novel multiplier.
This is followed by a comprehensive analysis of trade-offs in area, accuracy,
and performance. We show that under similar design constraints, DAISM reduces
energy consumption by 25\% and the number of cycles by 43\% compared to
state-of-the-art baselines.
- Abstract(参考訳): DNNは、最も広く使われているディープラーニングモデルの1つである。
DNNの行列乗算演算は計算コストが大きく、メモリと処理要素間のデータ移動によってボトルネックとなる。
多くの特別な加速器が行列乗算演算を最適化するために提案されている。
一般的なアイデアの1つは、メモリストレージ要素によって計算が行われる処理インメモリを使用することで、プロセッサとメモリ間のデータ移動のオーバーヘッドを低減できる。
しかし、ほとんどのPIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本研究では, GEMMをメモリ上で動作させるが, ビットシリアル計算の欠点を伴わない従来のSRAMのみを用いることで, 両世界を最大限に活用する。
これにより、ユーザは、ほとんど修正することなく、既存の技術を使用して、大幅なパフォーマンス向上を持つシステムを設計することができる。
我々はまず,SRAMにおける複数のワードラインアクティベーションを活用することで,ビットワイズOR演算と乗算を近似する新しいビット並列乗算器を設計する。
次に,新しい乗算器に基づいて,畳み込みニューラルネットワークの加速器であるデジタル近似インスラム乗算器アーキテクチャであるdaismを提案する。
これに続いて、領域、正確性、パフォーマンスのトレードオフを包括的に分析する。
同様の設計制約下では, DAISM はエネルギー消費量を 25 % 削減し, サイクル数を 43 % 削減する。
関連論文リスト
- Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Containing Analog Data Deluge at Edge through Frequency-Domain
Compression in Collaborative Compute-in-Memory Networks [0.0]
本稿では,ディープラーニング推論タスクにおける領域効率向上のための新しい手法を提案する。
アナログデータをより効率的に処理することにより、センサからの貴重なデータを選択的に保持し、アナログデータデルージュによる課題を軽減することができる。
論文 参考訳(メタデータ) (2023-09-20T03:52:04Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。