論文の概要: Efficient Activation Quantization via Adaptive Rounding Border for
Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2208.11945v1
- Date: Thu, 25 Aug 2022 09:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:13:56.389091
- Title: Efficient Activation Quantization via Adaptive Rounding Border for
Post-Training Quantization
- Title(参考訳): 適応円周境界による能率的活性化量子化による後訓練量子化
- Authors: Zhengyi Li, Cong Guo, Zhanda Zhu, Yangjie Zhou, Yuxian Qiu, Xiaotian
Gao, Jingwen Leng, Minyi Guo
- Abstract要約: アクティベーションのためのウェル・チョーゼン・ラウンドリング・スキームが最終的な精度を向上できることを示す。
AQuantは、最先端の作業と比べて、無視できるオーバーヘッドで顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 12.85710805130975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-training quantization (PTQ) attracts increasing attention due to its
convenience in deploying quantized neural networks. Rounding, the primary
source of quantization error, is optimized only for model weights, while
activations still use the rounding-to-nearest operation. In this work, for the
first time, we demonstrate that well-chosen rounding schemes for activations
can improve the final accuracy. To deal with the challenge of the dynamicity of
the activation rounding scheme, we adaptively adjust the rounding border
through a simple function to generate rounding schemes at the inference stage.
The border function covers the impact of weight errors, activation errors, and
propagated errors to eliminate the bias of the element-wise error, which
further benefits model accuracy. We also make the border aware of global errors
to better fit different arriving activations. Finally, we propose the AQuant
framework to learn the border function. Extensive experiments show that AQuant
achieves noticeable improvements with negligible overhead compared with
state-of-the-art works and pushes the accuracy of ResNet-18 up to 60.3\% under
the 2-bit weight and activation post-training quantization.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、量子化されたニューラルネットワークのデプロイの利便性により、注目を集める。
量子化エラーの主な原因である丸めはモデル重みのみに最適化されているが、アクティベーションはまだ丸め-ネアレスト操作を使用している。
本研究は,アクティベーションのための健全なラウンドリングスキームが最終精度を向上させることを初めて実証する。
活性化ラウンドリングスキームの動的性の課題に対処するため、簡単な関数でラウンドリング境界を適応的に調整し、推論段階でラウンドリングスキームを生成する。
境界関数は、重み誤差、アクティベーションエラー、伝播エラーの影響をカバーし、要素単位の誤差のバイアスを排除し、モデルの精度をさらに向上させる。
我々はまた、国境にグローバルなエラーを認識させ、異なるアクティベーションに適合させる。
最後に,境界関数を学習するためのAQuantフレームワークを提案する。
広範な実験により、aquantは最先端の作業に比べて無視できないオーバーヘッドで目立った改善を達成し、resnet-18の2ビット重みとトレーニング後のアクティベーションの量子化の下で60.3\%まで精度を向上できることが示されている。
関連論文リスト
- FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Optimal Quantization for Batch Normalization in Neural Network
Deployments and Beyond [18.14282813812512]
バッチ正規化(BN)が量子ニューラルネットワーク(QNN)に挑戦
本稿では、2つの浮動小数点のアフィン変換を共有量子化スケールで固定点演算に変換することによりBNを定量化する新しい方法を提案する。
提案手法は,CIFARおよびImageNetデータセット上の層レベルでの実験により検証される。
論文 参考訳(メタデータ) (2020-08-30T09:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。