論文の概要: QADAM: Quantization-Aware DNN Accelerator Modeling for Pareto-Optimality
- arxiv url: http://arxiv.org/abs/2205.13045v1
- Date: Fri, 20 May 2022 21:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 20:40:45.641320
- Title: QADAM: Quantization-Aware DNN Accelerator Modeling for Pareto-Optimality
- Title(参考訳): QADAM:Pareto-Optimalityのための量子化対応DNN加速器モデリング
- Authors: Ahmet Inci, Siri Garudanagiri Virupaksha, Aman Jain, Venkata Vivek
Thallam, Ruizhou Ding, Diana Marculescu
- Abstract要約: 本稿では,DNNアクセラレータのための高パラメータ化量子化対応パワー,性能,領域モデリングフレームワークQADAMを提案する。
この結果から,ビット精度とPEタイプの違いが,面積とエネルギーあたりの性能に有意な差をもたらすことが明らかとなった。
提案手法により,LightPEの精度は同等であり,面積当たりの性能は最大5.7倍,エネルギー効率は最大5.7倍に向上した。
- 参考スコア(独自算出の注目度): 11.408950820860884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the machine learning and systems communities strive to achieve higher
energy-efficiency through custom deep neural network (DNN) accelerators, varied
bit precision or quantization levels, there is a need for design space
exploration frameworks that incorporate quantization-aware processing elements
(PE) into the accelerator design space while having accurate and fast power,
performance, and area models. In this work, we present QADAM, a highly
parameterized quantization-aware power, performance, and area modeling
framework for DNN accelerators. Our framework can facilitate future research on
design space exploration and Pareto-efficiency of DNN accelerators for various
design choices such as bit precision, PE type, scratchpad sizes of PEs, global
buffer size, number of total PEs, and DNN configurations. Our results show that
different bit precisions and PE types lead to significant differences in terms
of performance per area and energy. Specifically, our framework identifies a
wide range of design points where performance per area and energy varies more
than 5x and 35x, respectively. We also show that the proposed lightweight
processing elements (LightPEs) consistently achieve Pareto-optimal results in
terms of accuracy and hardware-efficiency. With the proposed framework, we show
that LightPEs achieve on par accuracy results and up to 5.7x more performance
per area and energy improvement when compared to the best INT16 based design.
- Abstract(参考訳): 機械学習とシステムコミュニティは、カスタムディープニューラルネットワーク(DNN)アクセラレータ、様々なビット精度または量子化レベルを通じて、より高いエネルギー効率を達成するために努力しているため、正確で高速なパワー、パフォーマンス、領域モデルを持ちながら、量子化対応処理要素(PE)をアクセラレーション空間に組み込むデザインスペース探索フレームワークが必要である。
本稿では,DNNアクセラレータのための高パラメータ化量子化対応パワー,性能,領域モデリングフレームワークQADAMを提案する。
我々のフレームワークは、ビット精度、PEタイプ、スクラッチパッドサイズ、グローバルバッファサイズ、総PE数、DNN構成など、様々な設計選択のための設計空間探索およびDNNアクセラレータのパレート効率に関する将来の研究を促進することができる。
この結果から,ビット精度とPEタイプの違いが,面積とエネルギーあたりの性能に有意な差をもたらすことが明らかとなった。
具体的には,領域ごとのパフォーマンスとエネルギーがそれぞれ5倍と35倍に変化する,幅広い設計ポイントを特定する。
また,提案した軽量処理素子 (LightPE) は,精度とハードウェア効率の点でパレート最適化結果を一貫して達成していることを示す。
提案手法では,int16をベースとする最良設計に比べて,面積当たりの効率が最大5.7倍向上し,省エネ性が向上することを示した。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - The Hardware Impact of Quantization and Pruning for Weights in Spiking
Neural Networks [0.368986335765876]
パラメータの量子化とプルーニングは、モデルサイズを圧縮し、メモリフットプリントを削減し、低レイテンシ実行を容易にする。
本研究では,身近な身近なジェスチャー認識システムであるSNNに対して,孤立度,累積的に,そして同時にプルーニングと量子化の様々な組み合わせについて検討する。
本研究では,3次重みまで精度の低下に悩まされることなく,攻撃的パラメータ量子化に対処可能であることを示す。
論文 参考訳(メタデータ) (2023-02-08T16:25:20Z) - QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model
Co-Exploration [16.41338353426051]
QUIDAMは量子化対応のディープニューラルネットワーク(DNN)アクセラレータで、モデル共同探索フレームワークである。
その結果,異なるビット精度と処理要素のタイプが,面積とエネルギーあたりのパフォーマンスに有意な差をもたらすことがわかった。
提案フレームワークは, 面積毎の性能が5倍, エネルギー毎の性能が35倍を超える幅広い設計点を同定する。
論文 参考訳(メタデータ) (2022-06-30T17:55:50Z) - QAPPA: Quantization-Aware Power, Performance, and Area Modeling of DNN
Accelerators [11.408950820860884]
本稿では,量子化対応処理要素をアクセラレーション設計空間に組み込んだフレームワークを提案する。
提案する軽量処理素子は, 面積あたりの4.9倍の性能向上とエネルギー効率の向上を実現している。
その結果,異なるビット精度と処理要素のタイプが,面積とエネルギーあたりのパフォーマンスに有意な差をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-05-17T22:08:13Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。