論文の概要: PQA: Exploring the Potential of Product Quantization in DNN Hardware Acceleration
- arxiv url: http://arxiv.org/abs/2305.18334v2
- Date: Thu, 28 Mar 2024 21:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:46:32.822343
- Title: PQA: Exploring the Potential of Product Quantization in DNN Hardware Acceleration
- Title(参考訳): PQA: DNNハードウェアアクセラレーションにおける製品量子化の可能性を探る
- Authors: Ahmed F. AbouElhamayed, Angela Cui, Javier Fernandez-Marques, Nicholas D. Lane, Mohamed S. Abdelfattah,
- Abstract要約: 製品量子化(PQ)は、マルチプライ累積(MAC)操作を置き換えるためにディープニューラルネットワーク(DNN)に適用されている。
私たちは、近くの検索とドット商品のルックアップを並列化し、加速するための、カスタムハードウェアアクセラレータを作成します。
高度に最適化された従来のDNNアクセラレータと比較しても、ResNet20の性能を最大3.1$times$で改善するPQ構成を識別する。
- 参考スコア(独自算出の注目度): 14.091100907457037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional multiply-accumulate (MAC) operations have long dominated computation time for deep neural networks (DNNs), espcially convolutional neural networks (CNNs). Recently, product quantization (PQ) has been applied to these workloads, replacing MACs with memory lookups to pre-computed dot products. To better understand the efficiency tradeoffs of product-quantized DNNs (PQ-DNNs), we create a custom hardware accelerator to parallelize and accelerate nearest-neighbor search and dot-product lookups. Additionally, we perform an empirical study to investigate the efficiency--accuracy tradeoffs of different PQ parameterizations and training methods. We identify PQ configurations that improve performance-per-area for ResNet20 by up to 3.1$\times$, even when compared to a highly optimized conventional DNN accelerator, with similar improvements on two additional compact DNNs. When comparing to recent PQ solutions, we outperform prior work by $4\times$ in terms of performance-per-area with a 0.6% accuracy degradation. Finally, we reduce the bitwidth of PQ operations to investigate the impact on both hardware efficiency and accuracy. With only 2-6-bit precision on three compact DNNs, we were able to maintain DNN accuracy eliminating the need for DSPs.
- Abstract(参考訳): 従来の乗算累積(MAC)演算は、ディープニューラルネットワーク(DNN)やespcially convolutional Neural Network(CNN)の計算時間を支配してきた。
近年、これらのワークロードにPQ(Product Quantization)が適用され、MACをメモリルックアップに置き換えて、事前に計算済みのドット製品に置き換えている。
製品量子化DNN(PQ-DNNs)の効率トレードオフをよりよく理解するため,我々は,近接探索とドット生成検索を並列化し,高速化する,カスタムハードウェアアクセラレータを構築した。
さらに、異なるPQパラメータ化およびトレーニング手法の効率-正確性トレードオフを検討するための実証的研究を行った。
我々は、高度に最適化された従来のDNNアクセラレータと比較しても、ResNet20の性能を最大3.1$\times$で改善するPQ構成を識別する。
最近のPQソリューションと比較すると、パフォーマンス・パー・エリアにおいて、0.6%の精度で事前処理を4\times$で上回ります。
最後に,PQ操作のビット幅を小さくし,ハードウェアの効率と精度に与える影響について検討する。
3つのコンパクトDNNに対して2~6ビットの精度しか持たず、DSPを必要としないDNNの精度を維持することができた。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision
Quantization [1.0235078178220354]
本稿では, プルーニングと量子化を併用してハードウェアに配慮したディープニューラルネットワーク(DNN)の自動圧縮フレームワークを提案する。
われわれのフレームワークはデータセットの平均エネルギー消費量を39%減らし、平均精度損失を1.7%減らし、最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2023-12-23T18:50:13Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Towards Lossless ANN-SNN Conversion under Ultra-Low Latency with Dual-Phase Optimization [30.098268054714048]
非同期離散イベントで動作するスパイキングニューラルネットワーク(SNN)は、スパース計算によるエネルギー効率の向上を示す。
ディープSNNを実装するための一般的なアプローチは、ANNの効率的なトレーニングとSNNの効率的な推論を組み合わせたANN-SNN変換である。
本稿では,SNNにおける負または過フロー残留膜電位の誤表現に起因する性能劣化を最初に同定する。
そこで我々は,変換誤差を量子化誤差,クリッピング誤差,残留膜電位表現誤差の3つの部分に分解した。
論文 参考訳(メタデータ) (2022-05-16T06:53:14Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - DNN-Chip Predictor: An Analytical Performance Predictor for DNN
Accelerators with Various Dataflows and Hardware Architectures [30.689015188050405]
近年のディープニューラルネットワーク(DNN)のブレークスルーにより、DNNアクセラレーターの需要が大幅に増加した。
DNN-Chip Predictorは、DNNアクセラレータのエネルギ、スループット、遅延を実際の実装前に正確に予測できる分析性能予測器である。
論文 参考訳(メタデータ) (2020-02-26T02:59:18Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。