論文の概要: The case for 4-bit precision: k-bit Inference Scaling Laws
- arxiv url: http://arxiv.org/abs/2212.09720v1
- Date: Mon, 19 Dec 2022 18:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:32:18.157485
- Title: The case for 4-bit precision: k-bit Inference Scaling Laws
- Title(参考訳): 4ビット精度の場合:kビット推論スケーリング法則
- Authors: Tim Dettmers, Luke Zettlemoyer
- Abstract要約: 量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
- 参考スコア(独自算出の注目度): 75.4335600212427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization methods reduce the number of bits required to represent each
parameter in a model, trading accuracy for smaller memory footprints and
inference latencies. However, the final model size depends on both the number
of parameters of the original model and the rate of compression. For example, a
30B 8-bit model and a 60B 4-bit model have the same number of bits but may have
very different zero-shot accuracies. In this work, we study this trade-off by
developing inference scaling laws of zero-shot performance in Large Language
Models (LLMs) to determine the bit-precision and model size that maximizes
zero-shot performance. We run more than 35,000 zero-shot experiments with
16-bit inputs and k-bit parameters to examine which quantization methods
improve scaling for 3 to 8-bit precision at scales of 19M to 66B parameters
across the LLM families BLOOM, OPT, NeoX/Pythia, and GPT-2. We find that it is
challenging to improve the bit-level scaling trade-off, with the only
improvements being the use of a small block size -- splitting the parameters
into small independently quantized blocks -- and the quantization data type
being used (e.g., Int vs Float). Overall, our findings show that 4-bit
precision is almost universally optimal for total model bits and zero-shot
accuracy.
- Abstract(参考訳): 量子化法は、モデル内の各パラメータを表すために必要なビット数を削減し、より小さなメモリフットプリントと推論レイテンシのトレーディング精度を下げる。
しかし、最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
例えば、30Bの8ビットモデルと60Bの4ビットモデルは同じ数のビットを持つが、ゼロショットの精度は全く異なる。
本研究では,大言語モデル(llms)におけるゼロショット性能の推論法を開発し,ゼロショット性能を最大化するビット精度とモデルサイズを決定する。
我々は16ビット入力とkビットパラメータを用いた35,000以上のゼロショット実験を行い、LLMファミリーBLOOM, OPT, NeoX/Pythia, GPT-2の19Mから66Bのスケールで、どの量子化手法が3ビットから8ビットのスケーリングを改善するかを調べる。
私たちは、小さなブロックサイズ(パラメータを小さな独立した量子化されたブロックに分割すること)と量子化データ型(例えば、intとfloat)を使用することで、ビットレベルのスケーリングトレードオフを改善することが困難であることに気付きました。
全体として,4ビット精度はほぼ全モデルビットに対して最適であり,ゼロショット精度も高いことがわかった。
関連論文リスト
- ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。