論文の概要: Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.05429v1
- Date: Wed, 03 Jun 2026 20:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.398552
- Title: Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models
- Title(参考訳): 隠れたスケールコストの最小化:大規模言語モデルのためのグラフ誘導超低ビット量子化
- Authors: Rayyan Abdalla, Amir Hussein, Min Wu, Dinesh Manocha,
- Abstract要約: 学習後量子化(PTQ)は,大規模言語モデル(LLM)の効率的な展開に重要である
隠れスケーリングコストを最小限に抑えるLLMのための超低ビット量子化フレームワークであるSAGE-PTQを提案する。
LLaMA-3B では、SAGE-PTQ は BiLLM の 55.8 と比較して 6.74 WikiText2 のパープレキシティを実現している。
- 参考スコア(独自算出の注目度): 50.16014098038291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is critical for the efficient deployment of large language models (LLMs). Recent ultra-low-bit PTQ methods rely on rigid weight-saliency assumptions or position heuristics, introducing substantial hidden scaling overhead. We propose SAGE-PTQ (Saliency-Aware Graph-guided Efficient PTQ), a novel ultra-low-bit quantization framework for LLMs that minimizes hidden scaling cost. SAGE-PTQ separates salient and unsalient weights using distributional statistics, then models subsampled unsalient weights as a sparse graph to estimate the optimal number of groups per layer. SAGE-PTQ applies dual-mode quantization, assigning multi-bit precision to salient weights and binarizing unsalient weights. To reduce scaling overhead, SAGE-PTQ uses one per-channel scale for salient weights and one scalar per unsalient group. Finally, SAGE-PTQ implements adaptive saliency thresholding to select the optimal saliency ratio per matrix. SAGE-PTQ achieves 1.03 weight bits and only 0.004 scaling bits per matrix on average, outperforming state-of-the-art methods such as BiLLM and PB-LLM. On LLaMA-3-8B, SAGE-PTQ achieves 6.74 WikiText2 perplexity, compared to 55.8 for BiLLM, while using less than 50% of BiLLM's GPU memory. On LLaMA-2-70B, SAGE-PTQ provides 1.5x faster decoding on one NVIDIA L40 GPU, demonstrating practical inference efficiency.
- Abstract(参考訳): 学習後の量子化(PTQ)は、大規模言語モデル(LLM)の効率的な展開に不可欠である。
最近の超低ビットPTQ法は、厳密な重み付けの仮定や位置ヒューリスティックに依存しており、かなりのスケーリングオーバーヘッドをもたらす。
SAGE-PTQ (Saliency-Aware Graph-Guided Efficient PTQ) は,LLMのための新しい超低ビット量子化フレームワークである。
SAGE-PTQは分布統計を用いて正重と非正重を分離し、非正重をスパースグラフとしてモデル化し、各層に最適なグループ数を推定する。
SAGE-PTQは二重モード量子化を適用し、多ビットの精度をサリアントウェイトに割り当て、非サリアントウェイトをバイナライズする。
スケーリングオーバヘッドを低減するため、SAGE-PTQでは、サレントウェイトに1チャネル単位のスケール、アンサリアントグループに1スカラーを使用する。
最後に、SAGE-PTQは、行列ごとの最適な相性比を選択するために適応相性しきい値を設定する。
SAGE-PTQは、平均で1.03の重み付きビットと0.004のスケーリングビットしか達成せず、BiLLMやPB-LLMのような最先端の手法よりも優れている。
LLaMA-3-8B では、SAGE-PTQ は BiLLM の 55.8 と比較して 6.74 WikiText2 のパープレキシティを実現している。
LLaMA-2-70Bでは、SAGE-PTQは1つのNVIDIA L40 GPU上で1.5倍高速なデコードを提供し、実用的な推論効率を示している。
関連論文リスト
- D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。