Fugu-MT 論文翻訳(概要): The case for 4-bit precision: k-bit Inference Scaling Laws

論文の概要: The case for 4-bit precision: k-bit Inference Scaling Laws

arxiv url: http://arxiv.org/abs/2212.09720v1
Date: Mon, 19 Dec 2022 18:48:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:32:18.157485
Title: The case for 4-bit precision: k-bit Inference Scaling Laws
Title（参考訳）: 4ビット精度の場合:kビット推論スケーリング法則
Authors: Tim Dettmers, Luke Zettlemoyer
Abstract要約: 量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
参考スコア（独自算出の注目度）: 75.4335600212427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantization methods reduce the number of bits required to represent each parameter in a model, trading accuracy for smaller memory footprints and inference latencies. However, the final model size depends on both the number of parameters of the original model and the rate of compression. For example, a 30B 8-bit model and a 60B 4-bit model have the same number of bits but may have very different zero-shot accuracies. In this work, we study this trade-off by developing inference scaling laws of zero-shot performance in Large Language Models (LLMs) to determine the bit-precision and model size that maximizes zero-shot performance. We run more than 35,000 zero-shot experiments with 16-bit inputs and k-bit parameters to examine which quantization methods improve scaling for 3 to 8-bit precision at scales of 19M to 66B parameters across the LLM families BLOOM, OPT, NeoX/Pythia, and GPT-2. We find that it is challenging to improve the bit-level scaling trade-off, with the only improvements being the use of a small block size -- splitting the parameters into small independently quantized blocks -- and the quantization data type being used (e.g., Int vs Float). Overall, our findings show that 4-bit precision is almost universally optimal for total model bits and zero-shot accuracy.
Abstract（参考訳）: 量子化法は、モデル内の各パラメータを表すために必要なビット数を削減し、より小さなメモリフットプリントと推論レイテンシのトレーディング精度を下げる。しかし、最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。例えば、30Bの8ビットモデルと60Bの4ビットモデルは同じ数のビットを持つが、ゼロショットの精度は全く異なる。本研究では,大言語モデル(llms)におけるゼロショット性能の推論法を開発し,ゼロショット性能を最大化するビット精度とモデルサイズを決定する。我々は16ビット入力とkビットパラメータを用いた35,000以上のゼロショット実験を行い、LLMファミリーBLOOM, OPT, NeoX/Pythia, GPT-2の19Mから66Bのスケールで、どの量子化手法が3ビットから8ビットのスケーリングを改善するかを調べる。私たちは、小さなブロックサイズ(パラメータを小さな独立した量子化されたブロックに分割すること)と量子化データ型(例えば、intとfloat)を使用することで、ビットレベルのスケーリングトレードオフを改善することが困難であることに気付きました。全体として,4ビット精度はほぼ全モデルビットに対して最適であり,ゼロショット精度も高いことがわかった。

関連論文リスト

BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing [8.513851383288067]
本稿では,オンデバイスアプリケーションのための,コンパクトで軽量なテキスト音声合成(TTS)モデルを提案する。トレーニング中のモデルパラメータを1.58ビット以下に定量化するQAT(quantization-aware training)を導入する。 Int8インデックスとして1.58ビットの重み群を節約する重みインデックス法も提案する。
論文参考訳（メタデータ） (2025-06-04T03:02:18Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文参考訳（メタデータ） (2023-11-21T05:27:16Z)
Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (2023-09-04T10:27:17Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文参考訳（メタデータ） (2023-02-24T08:46:01Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文参考訳（メタデータ） (2021-07-23T02:18:00Z)
Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文参考訳（メタデータ） (2021-04-20T14:14:03Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。