論文の概要: PalQuant: Accelerating High-precision Networks on Low-precision
Accelerators
- arxiv url: http://arxiv.org/abs/2208.01944v1
- Date: Wed, 3 Aug 2022 09:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:49:00.342191
- Title: PalQuant: Accelerating High-precision Networks on Low-precision
Accelerators
- Title(参考訳): PalQuant: 低精度加速器上での高精度ネットワークの高速化
- Authors: Qinghao Hu, Gang Li, Qiman Wu, Jian Cheng
- Abstract要約: 低精度深層学習アクセラレータ (DLAs) は, チップ面積とエネルギー消費の優位性から普及している。
高精度かつ効率的な推論を実現する一つの方法は、高精度ニューラルネットワークを低精度DLAに展開することである。
並列低精度表現をスクラッチから学習することで高精度計算を近似するParallel Low-precision Quantization (PalQuant)法を提案する。
- 参考スコア(独自算出の注目度): 17.877271678887315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently low-precision deep learning accelerators (DLAs) have become popular
due to their advantages in chip area and energy consumption, yet the
low-precision quantized models on these DLAs bring in severe accuracy
degradation. One way to achieve both high accuracy and efficient inference is
to deploy high-precision neural networks on low-precision DLAs, which is rarely
studied. In this paper, we propose the PArallel Low-precision Quantization
(PalQuant) method that approximates high-precision computations via learning
parallel low-precision representations from scratch. In addition, we present a
novel cyclic shuffle module to boost the cross-group information communication
between parallel low-precision groups. Extensive experiments demonstrate that
PalQuant has superior performance to state-of-the-art quantization methods in
both accuracy and inference speed, e.g., for ResNet-18 network quantization,
PalQuant can obtain 0.52\% higher accuracy and 1.78$\times$ speedup
simultaneously over their 4-bit counter-part on a state-of-the-art 2-bit
accelerator. Code is available at \url{https://github.com/huqinghao/PalQuant}.
- Abstract(参考訳): 近年,チップ面積とエネルギー消費の優位性から,低精度深層学習アクセラレータ (DLAs) が普及しているが,これらのDLAの低精度量子化モデルでは精度が著しく低下している。
高精度かつ効率的な推論を実現する方法の1つは、高精度ニューラルネットワークを低精度のDLAに展開することである。
本稿では,並列低精度表現をスクラッチから学習することで高精度計算を近似する並列低精度量子化(palquant)法を提案する。
さらに,並列低精度群間のクロスグループ情報通信を促進するための新しい循環シャッフルモジュールを提案する。
大規模な実験により、PalQuantは、ResNet-18ネットワーク量子化の精度と推論速度の両方において、最先端の量子化法よりも優れた性能を示しており、例えば、PalQuantは、最先端の2ビット加速器上の4ビットカウンター部分に対して0.52\%の精度と1.78$\times$のスピードアップを得ることができる。
コードは \url{https://github.com/huqinghao/PalQuant} で入手できる。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - FBM: Fast-Bit Allocation for Mixed-Precision Quantization [1.4941013982958207]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズを精度を大幅に低下させることなく減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
既存の混合精度のスキームは、高い探査スペースを持つことに依存しており、結果として大きな炭素フットプリントとなる。
本研究では,FBM(Fast-Bit Allocation for Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文 参考訳(メタデータ) (2020-06-15T15:07:49Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。