論文の概要: Minimize Quantization Output Error with Bias Compensation
- arxiv url: http://arxiv.org/abs/2404.01892v1
- Date: Tue, 2 Apr 2024 12:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:28:46.624283
- Title: Minimize Quantization Output Error with Bias Compensation
- Title(参考訳): バイアス補償による量子化出力誤差の最小化
- Authors: Cheng Gong, Haoshuai Zheng, Mengting Hu, Zheng Lin, Deng-Ping Fan, Yuzhi Zhang, Tao Li,
- Abstract要約: 量子化は、ディープニューラルネットワーク(DNN)のメモリ使用量と計算強度を低減する有望な方法である
本稿では,出力誤差を定量化せずに精度を向上する手法を提案する。
視覚モデルと大規模言語モデルの実験を行う。
- 参考スコア(独自算出の注目度): 35.43358597502087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a promising method that reduces memory usage and computational intensity of Deep Neural Networks (DNNs), but it often leads to significant output error that hinder model deployment. In this paper, we propose Bias Compensation (BC) to minimize the output error, thus realizing ultra-low-precision quantization without model fine-tuning. Instead of optimizing the non-convex quantization process as in most previous methods, the proposed BC bypasses the step to directly minimize the quantizing output error by identifying a bias vector for compensation. We have established that the minimization of output error through BC is a convex problem and provides an efficient strategy to procure optimal solutions associated with minimal output error,without the need for training or fine-tuning. We conduct extensive experiments on Vision Transformer models and Large Language Models, and the results show that our method notably reduces quantization output error, thereby permitting ultra-low-precision post-training quantization and enhancing the task performance of models. Especially, BC improves the accuracy of ViT-B with 4-bit PTQ4ViT by 36.89% on the ImageNet-1k task, and decreases the perplexity of OPT-350M with 3-bit GPTQ by 5.97 on WikiText2.The code is in https://github.com/GongCheng1919/bias-compensation.
- Abstract(参考訳): 量子化は、ディープニューラルネットワーク(DNN)のメモリ使用量と計算強度を減少させる有望な手法であるが、しばしばモデル展開を妨げる大きな出力エラーを引き起こす。
本稿では,Bias Compensation (BC) を提案し,出力誤差を最小限に抑え,モデル微調整なしで超低精度量子化を実現する。
従来の方法のように非凸量子化過程を最適化する代わりに、BCは補償のためのバイアスベクトルを同定することによって、量子化出力誤差を直接最小化するステップをバイパスする。
我々は、BCによる出力誤差の最小化は凸問題であり、トレーニングや微調整を必要とせず、最小出力誤差に関連する最適解を得るための効率的な戦略を提供する。
我々はビジョントランスフォーマーモデルと大規模言語モデルに関する広範な実験を行い、本手法は量子化出力誤差を顕著に低減し、超低精度のポストトレーニング量子化を可能にし、モデルのタスク性能を向上することを示した。
特に、BCは、ImageNet-1kタスクで4ビットのPTQ4ViTでViT-Bの精度を36.89%改善し、WikiText2で3ビットのGPTQでOPT-350Mの難易度を5.97削減した。
関連論文リスト
- ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Model-based Optimization of Superconducting Qubit Readout [59.992881941624965]
超伝導量子ビットに対するモデルベース読み出し最適化を実証する。
我々は,残共振器光子から500nsの終端長と最小限の過剰リセット誤差で,キュービット当たり1.5%の誤差を観測した。
この技術は数百のキュービットに拡張でき、エラー訂正コードや短期アプリケーションの性能を高めるために使用される。
論文 参考訳(メタデータ) (2023-08-03T23:30:56Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。