論文の概要: Understanding the Impact of Post-Training Quantization on Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.05210v2
- Date: Wed, 13 Sep 2023 01:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-14 11:25:54.290299
- Title: Understanding the Impact of Post-Training Quantization on Large Language
Models
- Title(参考訳): 学習後の量子化が大規模言語モデルに与える影響の理解
- Authors: Somnath Roy
- Abstract要約: 大規模言語モデル(LLM)は急速に拡大している。
パラメータの数は、ChatGPT、Claude、Bardといった多くの商用モデルの成功の重要な要因となる。
大規模ニューラルネットワークの量子化分野における顕著な進歩は、これらのモデルをよりアクセスしやすくしている。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly increasing in size, with the number
of parameters becoming a key factor in the success of many commercial models,
such as ChatGPT, Claude, and Bard. Even the recently released publicly
accessible models for commercial usage, such as Falcon and Llama2, come
equipped with billions of parameters. This significant increase in the number
of parameters makes deployment and operation very costly. The remarkable
progress in the field of quantization for large neural networks in general and
LLMs in particular, has made these models more accessible by enabling them to
be deployed on consumer-grade GPUs. Quantized models generally demonstrate
comparable performance levels to their unquantized base counterparts.
Nonetheless, there exists a notable gap in our comprehensive understanding of
how these quantized models respond to hyperparameters, such as temperature, max
new tokens, and topk, particularly for next word prediction. The present
analysis reveals that nf4 and fp4 are equally proficient 4-bit quantization
techniques, characterized by similar attributes such as inference speed, memory
consumption, and the quality of generated content. Nevertheless, these
quantization methods exhibit distinct behaviors at varying temperature
settings, both in the context of smaller and larger models. It is noteworthy
that, in general, 4-bit quantized models of varying sizes exhibit heightened
sensitivity to lower temperature settings, unlike their unquantized
counterparts. Additionally, int8 quantization is associated with significantly
slower inference speeds, whereas unquantized fp16 models consistently yield the
fastest inference speeds across models of all sizes.
- Abstract(参考訳): 大規模言語モデル(llm)は急速に拡大しており、パラメータの数はchatgpt、claude、bardといった多くの商用モデルの成功の重要な要因となっている。
falconやllama2など、最近公開された商用利用用のパブリックアクセスモデルでさえ、数十億のパラメータを備えている。
このパラメータ数の大幅な増加は、デプロイメントと運用を非常にコストがかかる。
大規模ニューラルネットワークの量子化分野における目覚ましい進歩、特にLLMは、これらのモデルをコンシューマグレードのGPUにデプロイすることで、よりアクセスしやすくしている。
量子化モデルは一般に、量子化されていないベースモデルと同等のパフォーマンスレベルを示す。
しかしながら、これらの量子化モデルが、特に次の単語予測のために、温度、最大新しいトークン、トプクといったハイパーパラメータにどのように反応するかについての包括的な理解には、注目すべきギャップがある。
本分析により,nf4とfp4は,推論速度,メモリ消費,生成コンテンツの品質といった類似の属性を特徴とする4ビット量子化技術であることがわかった。
しかしながら、これらの量子化法は、より小さいモデルと大きなモデルの両方において、異なる温度設定で異なる挙動を示す。
一般に、異なる大きさの4ビット量子化モデルでは、非定量化モデルとは異なり、低い温度設定に対する感度が高められる。
さらに、int8量子化は推論速度が大幅に遅いのに対して、fp16モデルは全てのサイズのモデルで常に高速な推論速度が得られる。
関連論文リスト
- MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration [23.752021919501207]
本稿では,チャネルごとの静的量子化フレームワークであるMergeQuantを提案する。
MergeQuantは、量子化ステップマイグレーション(QSM)メソッドを通じて、チャネルごとの量子化ステップと対応するスケーリングと線形マッピングを統合する。
Llama-2-7Bモデルでは、MergeQuantはFP16ベースラインと比較してデコードで最大1.77倍、エンドツーエンドで最大2.06倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-03-07T04:52:28Z) - A Quantum Neural Network Transfer-Learning Model for Forecasting Problems with Continuous and Discrete Variables [0.0]
本研究では、タスク予測のための伝達学習手法として、単純で効果的な連続変数および離散変数量子ニューラルネットワーク(QNN)モデルを提案する。
CV-QNNは2つの量子ビットを持つ単一の量子層を備え、絡み合いを確立し、最小限の量子ゲートを使用する。
このモデルの凍結パラメータは、エネルギー消費、交通の流れ、気象条件、暗号通貨の価格予測など、様々な予測タスクにうまく適用されている。
論文 参考訳(メタデータ) (2025-03-04T22:38:51Z) - Matryoshka Quantization [19.46665026740268]
本稿では,新しいマルチスケール量子化手法であるMatryoshka Quantization(MatQuant)を提案する。
MatQuantを使えば、単一の量子化モデルをトレーニングし、メンテナンスできますが、デプロイによって要求される正確さでそれを提供します。
論文 参考訳(メタデータ) (2025-02-10T18:59:10Z) - ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - FP=xINT:A Low-Bit Series Expansion Algorithm for Post-Training Quantization [3.560046736432574]
PTQ(Post-Training Quantization)は、事前訓練されたフル精度(FP)モデルを、トレーニングなしで量子化したバージョンに変換する。
既存の手法は、量子化ノイズによる極端に低い設定で性能と量子化効率を著しく低下させる。
この問題に対処するためのディープモデルシリーズ拡張フレームワークを導入し、キャリブレーションセットや微調整を必要とせずに、不定値モデルの迅速かつ正確な近似を可能にする。
論文 参考訳(メタデータ) (2024-12-09T08:50:28Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - BRAIN2DEPTH: Lightweight CNN Model for Classification of Cognitive
States from EEG Recordings [0.0]
本稿では,脳波記録から認知状態を分類するための簡易軽量CNNモデルを提案する。
そこで我々は,2段階からなる認知表現を学習するための新しいパイプラインを開発した。
他のモデルのパラメータの4%未満を活用して、同等のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2021-06-12T05:06:20Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。