論文の概要: Are We There Yet? Product Quantization and its Hardware Acceleration
- arxiv url: http://arxiv.org/abs/2305.18334v1
- Date: Thu, 25 May 2023 09:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:21:39.012249
- Title: Are We There Yet? Product Quantization and its Hardware Acceleration
- Title(参考訳): まだいるのか?
製品量子化とそのハードウェア加速
- Authors: Javier Fernandez-Marques, Ahmed F. AbouElhamayed, Nicholas D. Lane,
Mohamed S. Abdelfattah
- Abstract要約: 製品量子化(PQ)はディープニューラルネットワーク(DNN)に成功している
異なるPQ設定が階層的再構成誤差とエンドツーエンドモデル精度に与える影響について検討する。
我々は、PQモデルの実行速度と効率を評価するために、最初のカスタムハードウェアアクセラレータを設計する。
- 参考スコア(独自算出の注目度): 13.15219564261754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional multiply-accumulate (MAC) operations have long dominated
computation time for deep neural networks (DNNs). Recently, product
quantization (PQ) has been successfully applied to these workloads, replacing
MACs with memory lookups to pre-computed dot products. While this property
makes PQ an attractive solution for model acceleration, little is understood
about the associated trade-offs in terms of compute and memory footprint, and
the impact on accuracy. Our empirical study investigates the impact of
different PQ settings and training methods on layerwise reconstruction error
and end-to-end model accuracy. When studying the efficiency of deploying PQ
DNNs, we find that metrics such as FLOPs, number of parameters, and even
CPU/GPU performance, can be misleading. To address this issue, and to more
fairly assess PQ in terms of hardware efficiency, we design the first custom
hardware accelerator to evaluate the speed and efficiency of running PQ models.
We identify PQ configurations that are able to improve performance-per-area for
ResNet20 by 40%-104%, even when compared to a highly optimized conventional DNN
accelerator. Our hardware performance outperforms recent PQ solutions by 4x,
with only a 0.6% accuracy degradation. This work demonstrates the practical and
hardware-aware design of PQ models, paving the way for wider adoption of this
emerging DNN approximation methodology.
- Abstract(参考訳): 従来の乗算累積(MAC)演算は、ディープニューラルネットワーク(DNN)の計算時間を支配してきた。
近年、製品量子化(PQ)がこれらのワークロードに成功し、MACをメモリルックアップに置き換え、事前に計算されたドット製品に置き換えている。
この性質は、PQをモデルアクセラレーションの魅力的なソリューションにするが、計算およびメモリフットプリントにおける関連するトレードオフや精度への影響についてはほとんど理解されていない。
本研究では,異なるPQ設定とトレーニング手法が階層的再構成誤差とエンドツーエンドモデル精度に与える影響について検討した。
PQ DNNのデプロイ効率を調べると、FLOPやパラメータの数、CPU/GPUのパフォーマンスといったメトリクスが誤解を招く可能性があることが分かります。
この問題に対処し、ハードウェア効率の観点からPQをより正確に評価するために、PQモデルの実行速度と効率を評価するための最初のカスタムハードウェアアクセラレータを設計する。
高度に最適化された従来のDNNアクセラレータと比較しても、ResNet20の性能を40%から104%向上させることができるPQ構成を同定する。
ハードウェア性能は最近のPQソリューションを4倍に上回り、精度は0.6%しか低下しない。
この研究は、PQモデルの実用的でハードウェアを意識した設計を実証し、この新たなDNN近似手法を広く採用する道を開いた。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision
Quantization [1.0235078178220354]
本稿では, プルーニングと量子化を併用してハードウェアに配慮したディープニューラルネットワーク(DNN)の自動圧縮フレームワークを提案する。
われわれのフレームワークはデータセットの平均エネルギー消費量を39%減らし、平均精度損失を1.7%減らし、最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2023-12-23T18:50:13Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Towards Lossless ANN-SNN Conversion under Ultra-Low Latency with Dual-Phase Optimization [30.098268054714048]
非同期離散イベントで動作するスパイキングニューラルネットワーク(SNN)は、スパース計算によるエネルギー効率の向上を示す。
ディープSNNを実装するための一般的なアプローチは、ANNの効率的なトレーニングとSNNの効率的な推論を組み合わせたANN-SNN変換である。
本稿では,SNNにおける負または過フロー残留膜電位の誤表現に起因する性能劣化を最初に同定する。
そこで我々は,変換誤差を量子化誤差,クリッピング誤差,残留膜電位表現誤差の3つの部分に分解した。
論文 参考訳(メタデータ) (2022-05-16T06:53:14Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - DNN-Chip Predictor: An Analytical Performance Predictor for DNN
Accelerators with Various Dataflows and Hardware Architectures [30.689015188050405]
近年のディープニューラルネットワーク(DNN)のブレークスルーにより、DNNアクセラレーターの需要が大幅に増加した。
DNN-Chip Predictorは、DNNアクセラレータのエネルギ、スループット、遅延を実際の実装前に正確に予測できる分析性能予測器である。
論文 参考訳(メタデータ) (2020-02-26T02:59:18Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。