論文の概要: A method of using RSVD in residual calculation of LowBit GEMM
- arxiv url: http://arxiv.org/abs/2409.18772v1
- Date: Fri, 27 Sep 2024 14:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 14:25:07.482764
- Title: A method of using RSVD in residual calculation of LowBit GEMM
- Title(参考訳): LowBit GEMMの残差計算におけるRSVDの利用法
- Authors: Hongyaoxing Gu,
- Abstract要約: 低ランク残差量子化行列乗算(LRQMM)法は、高密度な低精度量子化行列乗算に対する残差補償の低ランク近似を導入する。
BLAS-2レベルの余分な時間オーバーヘッドで数倍の精度向上を実現することができる。
ディープラーニングネットワークでは、LRQMM-4bitはResnet-50で61.8%のImageNet Top-1精度、Direct Quantの精度は8.3%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancements of hardware technology in recent years has brought many possibilities for low-precision applications. However, the use of low precision can introduce significant computational errors, posing a considerable challenge to maintaining the computational accuracy. We propose low-rank residuals quantized matrix multiplication(LRQMM) method which introduces low-rank approximation in residual compensation for dense low precision quantization matrix multiplication. It can bring several times accuracy improvement with only BLAS-2 level extra time overhead. Moreover, LRQMM is a completely data-free quantization method that does not require additional data for pre-training. And it only works with low precision GEMM operator, which is easy to couple with other methods. Through experimentation, LRQMM can reduce the error of direct quantized matrix multiplication by 1~2 orders of magnitude, when dealing with larger matrix sizes, the computational speed is only reduced by approximately 20\%. In deep learning networks, LRQMM-4bit achieves 61.8% ImageNet Top-1 accuracy in Resnet-50, while the Direct Quant accuracy is only 8.3%.
- Abstract(参考訳): 近年のハードウェア技術の進歩は、低精度アプリケーションに多くの可能性をもたらしている。
しかし、低精度の使用は重大な計算誤差を生じさせ、計算精度を維持する上で大きな課題となる。
低ランク残差量子化行列乗算(LRQMM)法を提案し、高密度低精度量子化行列乗算に対する残差補償に低ランク近似を導入する。
BLAS-2レベルの余分な時間オーバーヘッドで数倍の精度向上を実現することができる。
さらに、LRQMMは完全にデータフリーな量子化法であり、事前学習のための追加データを必要としない。
また、他のメソッドと簡単に対応できる低精度GEMM演算子でのみ動作する。
実験により、LRQMMは直接量子化行列乗算の誤差を1~2桁削減できる。
ディープラーニングネットワークでは、LRQMM-4bitはResnet-50で61.8%のImageNet Top-1精度、Direct Quantの精度は8.3%である。
関連論文リスト
- Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision [0.4124847249415279]
浮動小数点モデルはクラウドでトレーニングされ、エッジデバイスにダウンロードされる。
ネットワークの重みとアクティベーションは、NF4やINT8のようなエッジデバイスの望ましいレベルを満たすために直接量子化される。
本稿では,Watt MAC の効率と信頼性について,約464 TOPS のニューラル精度の偏極が可能であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:02:55Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Deep Neural Networks to Correct Sub-Precision Errors in CFD [0.0]
いくつかの機械学習技術は、空間的離散化による誤差の修正に成功している。
畳み込みニューラルネットワークと完全に微分可能な数値解法を用いて、16ビットの算術演算を行い、密結合型ML-CFDハイブリッド解法を学習する。
16ビットの解法と比較して, ML-CFDハイブリッド解法は, 速度場の誤差蓄積を低減し, 高周波数での運動エネルギースペクトルを改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-09T02:32:40Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。