論文の概要: Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators
- arxiv url: http://arxiv.org/abs/2409.08595v1
- Date: Fri, 13 Sep 2024 07:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:28:47.625883
- Title: Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators
- Title(参考訳): ディープニューラルネットワーク加速器の高速・高精度性能モデルの自動生成
- Authors: Konstantin Lübeck, Alexander Louis-Ferdinand Jung, Felix Wedlich, Mika Markus Müller, Federico Nicolás Peccia, Felix Thömmes, Jannik Steinmetz, Valentin Biermaier, Adrian Frischknecht, Paul Palomero Bernardo, Oliver Bringmann,
- Abstract要約: 本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
- 参考スコア(独自算出の注目度): 33.18173790144853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implementing Deep Neural Networks (DNNs) on resource-constrained edge devices is a challenging task that requires tailored hardware accelerator architectures and a clear understanding of their performance characteristics when executing the intended AI workload. To facilitate this, we present an automated generation approach for fast performance models to accurately estimate the latency of a DNN mapped onto systematically modeled and concisely described accelerator architectures. Using our accelerator architecture description method, we modeled representative DNN accelerators such as Gemmini, UltraTrail, Plasticine-derived, and a parameterizable systolic array. Together with DNN mappings for those modeled architectures, we perform a combined DNN/hardware dependency graph analysis, which enables us, in the best case, to evaluate only 154 loop kernel iterations to estimate the performance for 4.19 billion instructions achieving a significant speedup. We outperform regression and analytical models in terms of mean absolute percentage error (MAPE) compared to simulation results, while being several magnitudes faster than an RTL simulation.
- Abstract(参考訳): リソース制約のあるエッジデバイス上でのディープニューラルネットワーク(DNN)の実装は、ハードウェアアクセラレーションアーキテクチャの調整と、意図したAIワークロードの実行時のパフォーマンス特性の明確化を必要とする、困難な作業である。
これを容易にするために,高速な性能モデルのための自動生成手法を提案し,システム的モデル化および簡潔に記述されたアクセラレータアーキテクチャ上にマッピングされたDNNのレイテンシを正確に推定する。
提案手法を用いて,Gemmini,UltraTrail,Plastinine由来,パラメータ化可能なsystolic配列などの代表的DNNアクセラレータをモデル化した。
モデル化アーキテクチャのDNNマッピングと組み合わせて,DNN/ハードウェア依存グラフ解析を行い,最大154回のループカーネルイテレーションのみを評価し,その性能を490億の命令で推定し,大幅な高速化を実現した。
平均絶対パーセンテージ誤差(MAPE)を用いて回帰モデルと解析モデルの性能をシミュレーション結果と比較し, RTLシミュレーションよりも数桁高速である。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Neural Architecture Codesign for Fast Bragg Peak Analysis [1.7081438846690533]
我々は,高速かつリアルタイムなブラッグピーク解析のためのニューラルネットワーク符号の合理化のための自動パイプラインを開発した。
我々の手法では、ハードウェアコストを含むこれらのモデルを強化するために、ニューラルアーキテクチャ検索とAutoMLを使用し、よりハードウェア効率の良いニューラルアーキテクチャの発見に繋がる。
論文 参考訳(メタデータ) (2023-12-10T19:42:18Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Real-time Hyper-Dimensional Reconfiguration at the Edge using Hardware
Accelerators [12.599871451119538]
HyDRATEは、ディープニューラルネット(DNN)と超次元(HD)コンピューティングアクセラレータを組み合わせることで、エッジでリアルタイムな再構成を行うことができる。
本稿では,アルゴリズム,訓練された量子化モデル生成,および乗算累積のない特徴抽出器の性能について述べる。
降下勾配のバックプロパゲーションを伴わないフィードフォワードHD分類器のみをリトレーニングすることで、フィールドにおける再構成性を実現する。
論文 参考訳(メタデータ) (2022-06-10T14:08:41Z) - Bifrost: End-to-End Evaluation and Optimization of Reconfigurable DNN
Accelerators [0.0]
Bifrostは、再構成可能な推論アクセラレータの評価と最適化のためのエンドツーエンドフレームワークである。
我々は,ByfrostのSTONNEおよび他のツールに対する優位性を論じ,Byfrost を用いた MAERI および SIGMA アーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2022-04-26T16:22:24Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - STONNE: A Detailed Architectural Simulator for Flexible Neural Network
Accelerators [5.326345912766044]
STONNEはサイクル精度が高く、高度にモジュール化され、高度に拡張可能なシミュレーションフレームワークである。
一般に公開されているBSV符号化MAERIの実装の性能結果にどのように近づくかを示す。
論文 参考訳(メタデータ) (2020-06-10T19:20:52Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。