論文の概要: ICQuant: Index Coding enables Low-bit LLM Quantization
- arxiv url: http://arxiv.org/abs/2505.00850v1
- Date: Thu, 01 May 2025 20:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.828002
- Title: ICQuant: Index Coding enables Low-bit LLM Quantization
- Title(参考訳): ICQuant: 低ビットLLM量子化を実現するインデックス符号化
- Authors: Xinlin Li, Osama Hanna, Christina Fragouli, Suhas Diggavi,
- Abstract要約: 重み量子化の鍵となる課題は、量子化範囲を拡大し、大きなエラーを引き起こす外れ値の存在である。
ICQuantは、外れ値統計を利用して、外れ値認識量子化のための効率的なインデックス符号化方式を設計する新しいフレームワークである。
ICQuantは重量当たり2.3ビットと単純なスカラー量子化器を使用して、2ビットのLlama3-70Bモデルのゼロショット精度をQTIPとQuIP#と比較して最大130%改善する。
- 参考スコア(独自算出の注目度): 11.57957118744944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid deployment of Large Language Models (LLMs) highlights the need for efficient low-bit post-training quantization (PTQ), due to their high memory costs. A key challenge in weight quantization is the presence of outliers, which inflate quantization ranges and lead to large errors. While a number of outlier suppression techniques have been proposed, they either: fail to effectively shrink the quantization range, or incur (relatively) high bit overhead. In this paper, we present ICQuant, a novel framework that leverages outlier statistics to design an efficient index coding scheme for outlier-aware weight-only quantization. Compared to existing outlier suppression techniques requiring $\approx 1$ bit overhead to halve the quantization range, ICQuant requires only $\approx 0.3$ bits; a significant saving in extreme compression regimes (e.g., 2-3 bits per weight). ICQuant can be used on top of any existing quantizers to eliminate outliers, improving the quantization quality. Using just 2.3 bits per weight and simple scalar quantizers, ICQuant improves the zero-shot accuracy of the 2-bit Llama3-70B model by up to 130% and 150% relative to QTIP and QuIP#; and it achieves comparable performance to the best-known fine-tuned quantizer (PV-tuning) without fine-tuning.
- Abstract(参考訳): LLM(Large Language Models)の迅速なデプロイは、メモリコストが高いため、効率的な低ビット後トレーニング量子化(PTQ)の必要性を強調している。
重み量子化の鍵となる課題は、量子化範囲を拡大し、大きなエラーを引き起こす外れ値の存在である。
多くの外れ値抑制技術が提案されているが、量子化範囲を効果的に縮小できないか、あるいは(相対的に)高いビットオーバーヘッドを発生させないかのいずれかである。
本稿では,外乱量のみの量子化のための効率的なインデックス符号化方式を設計するために,外乱量統計を利用した新しいフレームワークICQuantを提案する。
量子化範囲を半減するために$\approx 1$bitのオーバーヘッドを必要とする既存の外部圧縮技術と比較して、ICQuantは$\approx 0.3$のビットしか必要としない。
ICQuantは、既存の量子化器の上にいて、アウトレイラを排除し、量子化の品質を向上させることができる。
ICQuantは重量当たり2.3ビットと単純なスカラー量子化器を使用して、2ビットのLlama3-70Bモデルのゼロショット精度をQTIPやQuIP#と比較して最大130%と150%改善し、微調整なしで最もよく知られた微調整量子化器(PVチューニング)と同等の性能を達成している。
関連論文リスト
- FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。
ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文 参考訳(メタデータ) (2024-04-19T10:02:53Z) - Fast Flux-Activated Leakage Reduction for Superconducting Quantum
Circuits [84.60542868688235]
量子ビット実装のマルチレベル構造から生じる計算部分空間から漏れること。
パラメトリックフラックス変調を用いた超伝導量子ビットの資源効率向上のためのユニバーサルリーク低減ユニットを提案する。
繰り返し重み付け安定化器測定におけるリーク低減ユニットの使用により,検出されたエラーの総数を,スケーラブルな方法で削減できることを実証した。
論文 参考訳(メタデータ) (2023-09-13T16:21:32Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。