論文の概要: Elastic Significant Bit Quantization and Acceleration for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2109.03513v1
- Date: Wed, 8 Sep 2021 09:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:36:50.080218
- Title: Elastic Significant Bit Quantization and Acceleration for Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークのための弾性有意ビット量子化と高速化
- Authors: Cheng Gong, Ye Lu, Kunpeng Xie, Zongming Jin, Tao Li, Yanzhi Wang
- Abstract要約: 我々は、弾性有極ビット量子化(ESB)と呼ばれる新しい手法を提案する。
ESBは、少ないリソースでより良い推論精度を得るために、量子化された値のかなりのビット数を制御します。
我々は、ESBをアクセラレータとして実装し、FPGA上でその効率を定量的に評価する。
- 参考スコア(独自算出の注目度): 22.002088280665152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has been proven to be a vital method for improving the inference
efficiency of deep neural networks (DNNs). However, it is still challenging to
strike a good balance between accuracy and efficiency while quantizing DNN
weights or activation values from high-precision formats to their quantized
counterparts. We propose a new method called elastic significant bit
quantization (ESB) that controls the number of significant bits of quantized
values to obtain better inference accuracy with fewer resources. We design a
unified mathematical formula to constrain the quantized values of the ESB with
a flexible number of significant bits. We also introduce a distribution
difference aligner (DDA) to quantitatively align the distributions between the
full-precision weight or activation values and quantized values. Consequently,
ESB is suitable for various bell-shaped distributions of weights and activation
of DNNs, thus maintaining a high inference accuracy. Benefitting from fewer
significant bits of quantized values, ESB can reduce the multiplication
complexity. We implement ESB as an accelerator and quantitatively evaluate its
efficiency on FPGAs. Extensive experimental results illustrate that ESB
quantization consistently outperforms state-of-the-art methods and achieves
average accuracy improvements of 4.78%, 1.92%, and 3.56% over AlexNet,
ResNet18, and MobileNetV2, respectively. Furthermore, ESB as an accelerator can
achieve 10.95 GOPS peak performance of 1k LUTs without DSPs on the Xilinx
ZCU102 FPGA platform. Compared with CPU, GPU, and state-of-the-art accelerators
on FPGAs, the ESB accelerator can improve the energy efficiency by up to 65x,
11x, and 26x, respectively.
- Abstract(参考訳): 量子化はディープニューラルネットワーク(DNN)の推論効率を改善する重要な方法であることが証明されている。
しかし、DNN重みやアクティベーション値を高精度フォーマットから量子化されたフォーマットに定量化しながら、精度と効率のバランスをとることは依然として困難である。
本稿では,より少ないリソースでより優れた推測精度を得るために,量子化値の有意ビット数を制御する「弾性有意ビット量子化」(ESB)と呼ばれる新しい手法を提案する。
我々は、ESBの量子化値をフレキシブルなビット数で制約する統一された数学的公式を設計する。
また、フル精度ウェイトまたはアクティベーション値と量子化値との間の分布を定量的に整合させる分散差分整合器(DDA)を導入する。
したがって、ESBは重みの様々なベル形状の分布やDNNの活性化に適しており、高い推論精度を維持することができる。
量子化値のかなりのビットが少ないため、ESBは乗算の複雑さを減らすことができます。
我々は、ESBをアクセラレータとして実装し、FPGA上でその効率を定量的に評価する。
大規模な実験結果によると、ESB量子化は最先端の手法を一貫して上回り、平均精度はAlexNet、ResNet18、MobileNetV2よりも4.78%、1.92%、3.56%向上している。
さらに、アクセルとしてのESBは、Xilinx ZCU102 FPGAプラットフォーム上のDSPなしで、1k LUTの10.95 GOPSピーク性能を達成することができる。
FPGA上のCPU、GPU、最先端アクセラレータと比較して、ESBアクセラレータは、それぞれ65倍、11倍、26倍のエネルギー効率を向上させることができる。
関連論文リスト
- Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators [7.728820930581886]
CIMはディープニューラルネットワーク(DNN)の効率的な実装方法である
CIMはアナログ・デジタルコンバータ(ADC)のかなりのオーバーヘッドに悩まされている
細胞制限と複数の細胞の必要性により生じる低ビットの重量制限はさらなる課題を呈している。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-11T05:32:14Z) - Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA [0.0]
層単位での混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。
本稿では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。
我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。
論文 参考訳(メタデータ) (2022-08-09T15:32:51Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Random and Adversarial Bit Error Robustness: Energy-Efficient and Secure
DNN Accelerators [105.60654479548356]
固定点量子化と重み切り、およびランダムビット誤り訓練(RandBET)の組み合わせにより、量子化DNN重みにおけるランダムビット誤りや逆ビット誤りに対するロバスト性を著しく向上することを示す。
これは低電圧運転のための高省エネと低精度量子化をもたらすが、DNN加速器の安全性も向上する。
論文 参考訳(メタデータ) (2021-04-16T19:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。