論文の概要: Understanding the Impact of Post-Training Quantization on Large-scale
Language Models
- arxiv url: http://arxiv.org/abs/2309.05210v1
- Date: Mon, 11 Sep 2023 02:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 13:57:19.133224
- Title: Understanding the Impact of Post-Training Quantization on Large-scale
Language Models
- Title(参考訳): 学習後の量子化が大規模言語モデルに与える影響の理解
- Authors: Somnath Roy
- Abstract要約: 大規模言語モデル(LLM)は急速に拡大している。
パラメータの数は、ChatGPT、Claude、Bardといった多くの商用モデルの成功の重要な要因となる。
大規模ニューラルネットワークの量子化分野における顕著な進歩は、これらのモデルをよりアクセスしやすくしている。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly increasing in size, with the number
of parameters becoming a key factor in the success of many commercial models,
such as ChatGPT, Claude, and Bard. Even the recently released publicly
accessible models for commercial usage, such as Falcon and Llama2, come
equipped with billions of parameters. This significant increase in the number
of parameters makes deployment and operation very costly. The remarkable
progress in the field of quantization for large neural networks in general and
LLMs in particular, has made these models more accessible by enabling them to
be deployed on consumer-grade GPUs. Quantized models generally demonstrate
comparable performance levels to their unquantized base counterparts.
Nonetheless, there exists a notable gap in our comprehensive understanding of
how these quantized models respond to hyperparameters, such as temperature, max
new tokens, and top\_k, particularly during the decoding phase. The present
analysis reveals that nf4 and fp4 are equally proficient 4-bit quantization
techniques, characterized by similar attributes such as inference speed, memory
consumption, and the quality of generated content. Nevertheless, these
quantization methods exhibit distinct behaviors at varying temperature
settings, both in the context of smaller and larger models. It is noteworthy
that, in general, 4-bit quantized models of varying sizes exhibit heightened
sensitivity to lower temperature settings, unlike their unquantized
counterparts. Additionally, int8 quantization is associated with significantly
slower inference speeds, whereas unquantized fp16 models consistently yield the
fastest inference speeds across models of all sizes.
- Abstract(参考訳): 大規模言語モデル(llm)は急速に拡大しており、パラメータの数はchatgpt、claude、bardといった多くの商用モデルの成功の重要な要因となっている。
falconやllama2など、最近公開された商用利用用のパブリックアクセスモデルでさえ、数十億のパラメータを備えている。
このパラメータ数の大幅な増加は、デプロイメントと運用を非常にコストがかかる。
大規模ニューラルネットワークの量子化分野における目覚ましい進歩、特にLLMは、これらのモデルをコンシューマグレードのGPUにデプロイすることで、よりアクセスしやすくしている。
量子化モデルは一般に、量子化されていないベースモデルと同等のパフォーマンスレベルを示す。
しかしながら、これらの量子化モデルは、特に復号フェーズにおいて、温度、最大新しいトークン、およびtop\_kなどのハイパーパラメータにどのように反応するかを包括的に理解する際、顕著なギャップがある。
本分析により,nf4とfp4は,推論速度,メモリ消費,生成コンテンツの品質といった類似の属性を特徴とする4ビット量子化技術であることがわかった。
しかしながら、これらの量子化法は、より小さいモデルと大きなモデルの両方において、異なる温度設定で異なる挙動を示す。
一般に、異なる大きさの4ビット量子化モデルでは、非定量化モデルとは異なり、低い温度設定に対する感度が高められる。
さらに、int8量子化は推論速度が大幅に遅いのに対して、fp16モデルは全てのサイズのモデルで常に高速な推論速度が得られる。
関連論文リスト
- LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - BRAIN2DEPTH: Lightweight CNN Model for Classification of Cognitive
States from EEG Recordings [0.0]
本稿では,脳波記録から認知状態を分類するための簡易軽量CNNモデルを提案する。
そこで我々は,2段階からなる認知表現を学習するための新しいパイプラインを開発した。
他のモデルのパラメータの4%未満を活用して、同等のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2021-06-12T05:06:20Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。