論文の概要: LSQ+: Improving low-bit quantization through learnable offsets and
better initialization
- arxiv url: http://arxiv.org/abs/2004.09576v1
- Date: Mon, 20 Apr 2020 19:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:35:25.382806
- Title: LSQ+: Improving low-bit quantization through learnable offsets and
better initialization
- Title(参考訳): LSQ+:学習可能なオフセットによる低ビット量子化の改善とより優れた初期化
- Authors: Yash Bhalgat, Jinwon Lee, Markus Nagel, Tijmen Blankevoort, Nojun Kwak
- Abstract要約: 学習可能な量子化スキームは、アクティベーションの符号なし量子化を仮定し、全ての負のアクティベーションをゼロに量子化する。
我々はLSQ+を提案し、トレーニング可能なスケールとオフセットパラメータを持つ一般的な非対称量子化スキームを導入する。
LSQ+は、EfficientNetとMixNetの最先端の結果を示し、Swishアクティベーションを持つニューラルネットの低ビット量子化において、LSQを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 43.59213570404785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike ReLU, newer activation functions (like Swish, H-swish, Mish) that are
frequently employed in popular efficient architectures can also result in
negative activation values, with skewed positive and negative ranges. Typical
learnable quantization schemes [PACT, LSQ] assume unsigned quantization for
activations and quantize all negative activations to zero which leads to
significant loss in performance. Naively using signed quantization to
accommodate these negative values requires an extra sign bit which is expensive
for low-bit (2-, 3-, 4-bit) quantization. To solve this problem, we propose
LSQ+, a natural extension of LSQ, wherein we introduce a general asymmetric
quantization scheme with trainable scale and offset parameters that can learn
to accommodate the negative activations. Gradient-based learnable quantization
schemes also commonly suffer from high instability or variance in the final
training performance, hence requiring a great deal of hyper-parameter tuning to
reach a satisfactory performance. LSQ+ alleviates this problem by using an
MSE-based initialization scheme for the quantization parameters. We show that
this initialization leads to significantly lower variance in final performance
across multiple training runs. Overall, LSQ+ shows state-of-the-art results for
EfficientNet and MixNet and also significantly outperforms LSQ for low-bit
quantization of neural nets with Swish activations (e.g.: 1.8% gain with W4A4
quantization and upto 5.6% gain with W2A2 quantization of EfficientNet-B0 on
ImageNet dataset). To the best of our knowledge, ours is the first work to
quantize such architectures to extremely low bit-widths.
- Abstract(参考訳): ReLUとは異なり、一般的な効率的なアーキテクチャで頻繁に使用される新しい活性化関数(Swish、H-swish、Mishなど)は、正と負の範囲を持つ負の活性化値をもたらす。
典型的な学習可能な量子化スキーム[PACT, LSQ]は、アクティベーションの符号なし量子化を仮定し、全ての負のアクティベーションをゼロに量子化する。
これらの負の値に対応するために符号付き量子化を用いるには、低ビット(2-, 3-, 4-bit)の量子化に費用がかかる余分な符号ビットが必要である。
この問題を解決するために、LSQの自然な拡張であるLSQ+を提案し、トレーニング可能なスケールとオフセットパラメータを持つ一般的な非対称量子化スキームを導入する。
勾配に基づく学習可能な量子化スキームは、最終訓練性能において高い不安定性やばらつきを被ることが多いため、十分な性能に達するには大量のハイパーパラメータチューニングが必要となる。
LSQ+は、量子化パラメータに対するMSEベースの初期化スキームを用いてこの問題を軽減する。
この初期化は、複数のトレーニング実行における最終性能のばらつきを著しく低減させることを示す。
全体として、LSQ+はEfficientNetとMixNetの最先端の結果を示し、Swishアクティベーションを持つニューラルネットの低ビット量子化(例えば、W4A4量子化で1.8%、ImageNetデータセットでW2A2量子化で最大5.6%)ではLSQを著しく上回っている。
私たちの知る限りでは、このようなアーキテクチャを極端に低いビット幅に定量化する最初の仕事です。
関連論文リスト
- ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。