論文の概要: Designing Efficient and High-performance AI Accelerators with Customized
STT-MRAM
- arxiv url: http://arxiv.org/abs/2104.02199v1
- Date: Tue, 6 Apr 2021 00:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 22:39:03.945297
- Title: Designing Efficient and High-performance AI Accelerators with Customized
STT-MRAM
- Title(参考訳): STT-MRAMをカスタマイズした効率的な高性能AI加速器の設計
- Authors: Kaniz Mishty, Mehdi Sadi
- Abstract要約: 独自のSTT-MRAMと再構成可能なコアを備えた効率的で高性能なAI/Deep Learningアクセラレータの設計を実証します。
リラックスしたビットエラー率と無視可能なAI精度のトレードオフにより、設計されたSTT-AIアクセラレータはそれぞれ75.4%、面積と電力の3.5%節約を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we demonstrate the design of efficient and high-performance
AI/Deep Learning accelerators with customized STT-MRAM and a reconfigurable
core. Based on model-driven detailed design space exploration, we present the
design methodology of an innovative scratchpad-assisted on-chip STT-MRAM based
buffer system for high-performance accelerators. Using analytically derived
expression of memory occupancy time of AI model weights and activation maps,
the volatility of STT-MRAM is adjusted with process and temperature variation
aware scaling of thermal stability factor to optimize the retention time,
energy, read/write latency, and area of STT-MRAM. From the analysis of modern
AI workloads and accelerator implementation in 14nm technology, we verify the
efficacy of our designed AI accelerator with STT-MRAM STT-AI. Compared to an
SRAM-based implementation, the STT-AI accelerator achieves 75% area and 3%
power savings at iso-accuracy. Furthermore, with a relaxed bit error rate and
negligible AI accuracy trade-off, the designed STT-AI Ultra accelerator
achieves 75.4%, and 3.5% savings in area and power, respectively over regular
SRAM-based accelerators.
- Abstract(参考訳): 本稿では,STT-MRAMと再構成可能なコアを備えた,効率的かつ高性能なAI/Deep Learningアクセラレータの設計を実証する。
モデル駆動の詳細な設計空間探索に基づいて,高速加速器用スクラッチパッドを用いたオンチップSTT-MRAMバッファシステムの設計手法を提案する。
STT-MRAMのボラティリティは、AIモデルウェイトとアクティベーションマップのメモリ占有時間の解析的表現を用いて、熱安定性係数のスケーリングを考慮したプロセスと温度変化によって調整され、保持時間、エネルギ、リード/ライトレイテンシ、STT-MRAMの面積を最適化する。
14nm技術における現代のAIワークロードの解析とアクセラレータ実装から,STT-MRAM STT-AIを用いて設計したAIアクセラレータの有効性を検証する。
SRAMベースの実装と比較して、STT-AIアクセラレータは、アイソ精度で75%の領域と3%の省電力を達成する。
さらに、緩和されたビットエラー率と無視可能なAI精度のトレードオフにより、設計されたSTT-AI Ultraアクセラレータは、それぞれ通常のSRAMベースのアクセラレータよりも75.4%、面積と電力の3.5%の節約を達成した。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators [9.877596714655096]
深層ニューラルネットワーク(DNN)のトレーニングは非常にメモリ集約的なプロセスである。
Spin-Transfer-Torque MRAM (STT-MRAM) は、加速器の訓練に望ましいいくつかの特性を提供する。
MRAMはシステムレベルのエネルギーを最大15-22倍改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T20:36:48Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z) - Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM
Compiler Stack [1.8337659614890698]
ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。
フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。
プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2020-04-20T10:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。