論文の概要: FBM: Fast-Bit Allocation for Mixed-Precision Quantization
- arxiv url: http://arxiv.org/abs/2205.15437v1
- Date: Mon, 30 May 2022 21:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:54:17.541346
- Title: FBM: Fast-Bit Allocation for Mixed-Precision Quantization
- Title(参考訳): FBM:Mixed-Precision Quantizationのための高速ビット割り当て
- Authors: Moshe Kimhi, Tal Rozen, Tal Kopetz, Olya Sirkin, Avi Mendelson, Chaim
Baskin
- Abstract要約: 量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズを精度を大幅に低下させることなく減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
既存の混合精度のスキームは、高い探査スペースを持つことに依存しており、結果として大きな炭素フットプリントとなる。
本研究では,FBM(Fast-Bit Allocation for Mixed-Precision Quantization)を提案する。
- 参考スコア(独自算出の注目度): 1.4941013982958207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quantized neural networks are well known for reducing latency, power
consumption, and model size without significant degradation in accuracy, making
them highly applicable for systems with limited resources and low power
requirements.
Mixed precision quantization offers better utilization of customized hardware
that supports arithmetic operations at different bitwidths. Existing
mixed-precision schemes rely on having a high exploration space, resulting in a
large carbon footprint. In addition, these bit allocation strategies mostly
induce constraints on the model size rather than utilizing the performance of
neural network deployment on specific hardware. Our work proposes Fast-Bit
Allocation for Mixed-Precision Quantization (FBM), which finds an optimal
bitwidth allocation by measuring desired behaviors through a simulation of a
specific device, or even on a physical one.
While dynamic transitions of bit allocation in mixed precision quantization
with ultra-low bitwidth are known to suffer from performance degradation, we
present a fast recovery solution from such transitions.
A comprehensive evaluation of the proposed method on CIFAR-10 and ImageNet
demonstrates our method's superiority over current state-of-the-art schemes in
terms of the trade-off between neural network accuracy and hardware efficiency.
Our source code, experimental settings and quantized models are available at
https://github.com/RamorayDrake/FBM/
- Abstract(参考訳): 量子化されたニューラルネットワークは、精度を著しく低下させることなくレイテンシ、消費電力、モデルサイズを減らすことでよく知られており、リソースの少ないシステムや低消費電力システムに適用できる。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズハードウェアのより良い利用を提供する。
既存の混合精密スキームは、高い探検空間を持つことに依存しているため、カーボンフットプリントが大きくなる。
さらに、これらのビット割り当て戦略は、特定のハードウェア上でのニューラルネットワークデプロイメントのパフォーマンスを活用するのではなく、モデルサイズに対する制約を主に引き起こす。
そこで本研究では,混合精度量子化(fbm)のための高速ビット割り当てを提案する。
超低ビット幅の混合精度量子化におけるビット割り当ての動的遷移は性能劣化に苦しむことが知られているが、このような遷移から高速に回復する解を示す。
CIFAR-10 と ImageNet における提案手法の総合評価は,ニューラルネットワークの精度とハードウェア効率のトレードオフの観点から,現在の最先端方式よりも優れていることを示す。
ソースコード、実験的設定、量子化モデルはhttps://github.com/RamorayDrake/FBM/で利用可能です。
関連論文リスト
- Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Performance Optimization for Variable Bitwidth Federated Learning in
Wireless Networks [103.22651843174471]
本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。
提案したビット幅FL方式では,エッジデバイスは局所FLモデルパラメータの量子化バージョンを調整し,コーディネートサーバに送信し,それらを量子化されたグローバルモデルに集約し,デバイスを同期させる。
FLトレーニングプロセスはマルコフ決定プロセスとして記述でき、反復よりも行動選択を最適化するためのモデルベース強化学習(RL)手法を提案する。
論文 参考訳(メタデータ) (2022-09-21T08:52:51Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文 参考訳(メタデータ) (2020-06-15T15:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。