論文の概要: Analysis of Quantization on MLP-based Vision Models
- arxiv url: http://arxiv.org/abs/2209.06383v1
- Date: Wed, 14 Sep 2022 02:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:25:48.144938
- Title: Analysis of Quantization on MLP-based Vision Models
- Title(参考訳): MLPに基づく視覚モデルにおける量子化の解析
- Authors: Lingran Zhao, Zhen Dong, Kurt Keutzer
- Abstract要約: 量子化は、ニューラルネットワークの浮動小数点重みとアクティベーションを低ビット整数に変換することによって効率的なモデルを得る。
本稿では,有界モデルに量子化を直接適用することで,精度が向上することを示す。
- 参考スコア(独自算出の注目度): 36.510879540365636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is wildly taken as a model compression technique, which obtains
efficient models by converting floating-point weights and activations in the
neural network into lower-bit integers. Quantization has been proven to work
well on convolutional neural networks and transformer-based models. Despite the
decency of these models, recent works have shown that MLP-based models are able
to achieve comparable results on various tasks ranging from computer vision,
NLP to 3D point cloud, while achieving higher throughput due to the parallelism
and network simplicity. However, as we show in the paper, directly applying
quantization to MLP-based models will lead to significant accuracy degradation.
Based on our analysis, two major issues account for the accuracy gap: 1) the
range of activations in MLP-based models can be too large to quantize, and 2)
specific components in the MLP-based models are sensitive to quantization.
Consequently, we propose to 1) apply LayerNorm to control the quantization
range of activations, 2) utilize bounded activation functions, 3) apply
percentile quantization on activations, 4) use our improved module named
multiple token-mixing MLPs, and 5) apply linear asymmetric quantizer for
sensitive operations. Equipped with the abovementioned techniques, our Q-MLP
models can achieve 79.68% accuracy on ImageNet with 8-bit uniform quantization
(model size 30 MB) and 78.47% with 4-bit quantization (15 MB).
- Abstract(参考訳): 量子化は、ニューラルネットワークの浮動小数点重みとアクティベーションを低ビット整数に変換することにより、効率的なモデルを得るためのモデル圧縮技術として、大いに取り上げられている。
量子化は畳み込みニューラルネットワークやトランスフォーマーモデルでうまく機能することが証明されている。
これらのモデルの遅れにもかかわらず、最近の研究により、MLPベースのモデルは、コンピュータビジョン、NLPから3Dポイントクラウドまでの様々なタスクにおいて、並列性とネットワークの単純さにより高いスループットを達成できることが示された。
しかし,本論文で示すように,MLPモデルに直接量子化を適用すると,精度が著しく低下する。
分析結果から, 精度の差には2つの大きな問題点がある。
1) MLPモデルにおけるアクティベーションの範囲は、定量化するには大きすぎる。
2) MLPモデルにおける特定の成分は量子化に敏感である。
そのため,我々は提案する。
1) layernorm を適用してアクティベーションの量子化範囲を制御する。
2)有界活性化関数を利用する。
3)活性化にパーセンタイル量子化を適用する。
4) 複数のトークンミキシング MLP という改良モジュールを使用します。
5) 感度演算に線形非対称量子化器を適用する。
上記の技術を備えており、8ビット一様量子化(モデルサイズ30mb)と78.47%、4ビット量子化(15mb)のイメージネットで79.68%の精度が得られる。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - CrossQuant: A Post-Training Quantization Method with Smaller Quantization Kernel for Precise Large Language Model Compression [6.859010157930106]
学習後量子化(PTQ)は大規模言語モデル(LLM)の圧縮に有効な手法である
量子化カーネル (quantization kernel) とは、ゼロに量子化される活性化の要素の集合のことである。
アクティベーションを定量化するシンプルで効果的な方法であるCrossQuantを提案する。
論文 参考訳(メタデータ) (2024-10-10T00:44:24Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - ZeroQuant-V2: Exploring Post-training Quantization in LLMs from
Comprehensive Study to Low Rank Compensation [24.34969722921442]
学習後量子化(PTQ)は、大規模言語モデル(LLM)におけるメモリ消費と計算コストを緩和する有望な手法として登場した。
我々は、PTQが重量のみ、活性化のみ、および重量と活性化の量子化に与える影響を調査し、これらの要因を包括的に分析する。
モデルサイズが最小限に抑えられたモデル品質回復を実現するために,Loll-Rank Compensation (LoRC) という最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T01:27:15Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。