論文の概要: GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling
- arxiv url: http://arxiv.org/abs/2604.18556v1
- Date: Mon, 20 Apr 2026 17:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.027599
- Title: GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling
- Title(参考訳): GSQ: Gumbel-SoftmaxサンプリングによるLDMの高精度スカラー量子化
- Authors: Alireza Dadgarnia, Soroush Tabesh, Mahdi Nikdan, Michael Helcig, Eldar Kurtic, Dan Alistarh,
- Abstract要約: GSQ(Gumbel-Softmax Quantization)は,グループ単位のグリッド割り当てとグループ単位のスケールを協調的に学習する,学習後のスカラー量子化手法である。
標準のLlama-3.1-8B/70B-Instructモデルでは、GSQはスカラー量子化とQTIPフロンティアの差の大部分を2ビットと3ビットで閉じている。
GSQは,ベクトル量子化法の適用が困難なKim-K2.5のような1兆倍スケールのMixture-of-Expertsモデルにスケールすることを示す。
- 参考スコア(独自算出の注目度): 36.47926569464477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight quantization has become a standard tool for efficient LLM deployment, especially for local inference, where models are now routinely served at 2-3 bits per parameter. The state of the art is currently split into two sets of methods: simple scalar quantization techniques, such as GPTQ or AWQ, which are widely deployed but plateau in accuracy at 3-4 bits per parameter (bpp), and "second-generation" vector- or trellis-quantized methods, such as QTIP, GPTVQ and AQLM, which push the accuracy frontier at low bit-widths but are notoriously hard to implement and to scale, and have gained relatively less traction. In this paper, we ask whether this gap is fundamental, or whether a carefully optimized scalar quantizer can recover most of it. We answer in the affirmative, by introducing GSQ (Gumbel-Softmax Quantization), a post-training scalar quantization method which jointly learns the per-coordinate grid assignments and the per-group scales using a Gumbel-Softmax relaxation of the discrete grid. GSQ matches the cardinality of the relaxation to the small number of levels available in the target bit-width regime (e.g., 3-8 levels for ternary and 3 bpp, respectively), making the relaxation tight and the optimization tractable. Practically, on the standard Llama-3.1-8B/70B-Instruct models, GSQ closes most of the gap between scalar quantization and the QTIP frontier at 2 and 3 bits, while using a symmetric scalar grid with group-wise quantization, and thus fully compatible with existing scalar inference kernels. We further show that GSQ scales to trillion-scale Mixture-of-Experts models such as Kimi-K2.5, where vector-quantized methods are difficult to apply.
- Abstract(参考訳): 軽量量子化は、特にローカル推論において、効率的なLLMデプロイメントのための標準ツールとなり、1パラメータあたり2~3ビットでモデルが日常的に提供されるようになった。
GPTQ や AWQ のような単純なスカラー量子化手法は広く展開されているが、パラメータ (bpp) あたり3,4ビットの精度で精度が向上しているのに対し、QTIP、GPTVQ、AQLM のような「第2世代の」ベクトル量子化手法は、低ビット幅で精度のフロンティアを押し上げるが、実装やスケールが困難であり、比較的少ない。
本稿では,このギャップが基本的なものなのか,あるいは慎重に最適化されたスカラー量子化器がその大部分を回収できるのかを問う。
本稿では,GSQ(Gumbel-Softmax Quantization, Gumbel-Softmax Quantization, Gumbel-Softmax Quantization, GSQ)を導入して,離散格子のGumbel-Softmax緩和を用いて,協調格子の割り当てとグループ単位のスケールを協調的に学習する,学習後のスカラー量子化手法を提案する。
GSQは、緩和の基数と、目標ビット幅レジームで利用可能な少数のレベル(例えば、3bppの3-8レベルと3bppの3bpp)とを一致させ、緩和をきつくし、最適化も引き出せるようにした。
実際、標準のLlama-3.1-8B/70B-インストラクタモデルでは、GSQはスカラー量子化とQTIPフロンティアのギャップの大部分を2ビットと3ビットで閉じている。
さらに,ベクトル量子化法の適用が困難であるKim-K2.5のように,GSQが1兆倍スケールのMixture-of-Expertsモデルにスケールすることを示す。
関連論文リスト
- BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights [8.95245917088986]
訓練後の量子化は、大規模言語モデルを低精度で展開するための最も広く使われている戦略として現れてきた。
現在の手法では、ビット幅が4以下でパープレキシティ劣化を示す。
本稿では,2軸スケール係数と高速シンクホーン-ノック方式のアルゴリズムにより,既存の学習後量子化器を増強するSINQを紹介する。
論文 参考訳(メタデータ) (2025-09-26T21:22:54Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。