論文の概要: The case for 4-bit precision: k-bit Inference Scaling Laws
- arxiv url: http://arxiv.org/abs/2212.09720v1
- Date: Mon, 19 Dec 2022 18:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:32:18.157485
- Title: The case for 4-bit precision: k-bit Inference Scaling Laws
- Title(参考訳): 4ビット精度の場合:kビット推論スケーリング法則
- Authors: Tim Dettmers, Luke Zettlemoyer
- Abstract要約: 量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
- 参考スコア(独自算出の注目度): 75.4335600212427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization methods reduce the number of bits required to represent each
parameter in a model, trading accuracy for smaller memory footprints and
inference latencies. However, the final model size depends on both the number
of parameters of the original model and the rate of compression. For example, a
30B 8-bit model and a 60B 4-bit model have the same number of bits but may have
very different zero-shot accuracies. In this work, we study this trade-off by
developing inference scaling laws of zero-shot performance in Large Language
Models (LLMs) to determine the bit-precision and model size that maximizes
zero-shot performance. We run more than 35,000 zero-shot experiments with
16-bit inputs and k-bit parameters to examine which quantization methods
improve scaling for 3 to 8-bit precision at scales of 19M to 66B parameters
across the LLM families BLOOM, OPT, NeoX/Pythia, and GPT-2. We find that it is
challenging to improve the bit-level scaling trade-off, with the only
improvements being the use of a small block size -- splitting the parameters
into small independently quantized blocks -- and the quantization data type
being used (e.g., Int vs Float). Overall, our findings show that 4-bit
precision is almost universally optimal for total model bits and zero-shot
accuracy.
- Abstract(参考訳): 量子化法は、モデル内の各パラメータを表すために必要なビット数を削減し、より小さなメモリフットプリントと推論レイテンシのトレーディング精度を下げる。
しかし、最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
例えば、30Bの8ビットモデルと60Bの4ビットモデルは同じ数のビットを持つが、ゼロショットの精度は全く異なる。
本研究では,大言語モデル(llms)におけるゼロショット性能の推論法を開発し,ゼロショット性能を最大化するビット精度とモデルサイズを決定する。
我々は16ビット入力とkビットパラメータを用いた35,000以上のゼロショット実験を行い、LLMファミリーBLOOM, OPT, NeoX/Pythia, GPT-2の19Mから66Bのスケールで、どの量子化手法が3ビットから8ビットのスケーリングを改善するかを調べる。
私たちは、小さなブロックサイズ(パラメータを小さな独立した量子化されたブロックに分割すること)と量子化データ型(例えば、intとfloat)を使用することで、ビットレベルのスケーリングトレードオフを改善することが困難であることに気付きました。
全体として,4ビット精度はほぼ全モデルビットに対して最適であり,ゼロショット精度も高いことがわかった。
関連論文リスト
- Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。