論文の概要: ADMM-Q: An Improved Hessian-based Weight Quantizer for Post-Training Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11222v1
- Date: Mon, 11 May 2026 20:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.416329
- Title: ADMM-Q: An Improved Hessian-based Weight Quantizer for Post-Training Quantization of Large Language Models
- Title(参考訳): ADMM-Q:大規模言語モデルの学習後量子化のためのヘッセン系重み量子化器の改良
- Authors: Ryan Lucas, Mehdi Makni, Xiang Meng, Adam Deng, Rahul Mazumder,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)を圧縮するための主要なアプローチである。
本稿では,レイヤワイド量子化問題を考慮した新しい重み量子化アルゴリズムADMM-Qを提案する。
我々のアルゴリズムは、乗算器の交互方向法(ADMM)の変種に基づく。
- 参考スコア(独自算出の注目度): 19.81248151945835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is an effective strategy to reduce the storage and computation footprint of large language models (LLMs). Post-training quantization (PTQ) is a leading approach for compressing LLMs. Popular weight quantization procedures, including GPTQ and RTN, suffer in model utility, especially at aggressive quantization levels (sub-4-bit). We propose ADMM-Q, a novel weight quantization algorithm that considers the layer-wise quantization problem. Our algorithm is based on a combinatorial variant of the Alternating Direction Method of Multipliers (ADMM). Our operator-splitting procedure updates weights continuously to minimize the layer-wise reconstruction error, while gradually enforcing the quantization constraints with convergence guarantees. We propose additional algorithmic enhancements (e.g., penalty scheduling, preconditioning, and a local search post-processing step) to make ADMM-Q efficient at LLM scale. ADMM-Q is modular and can be used as a drop-in replacement for any weight quantizer within existing quantization pipelines: ADMM-Q is fully composable with existing techniques including range clipping, learned or random rotations, and activation scaling. Using ADMM-Q in place of GPTQ on Qwen3-8B, we decrease WikiText-2 perplexity in: (i) the W3A16 weight-only setting (12.85 $\rightarrow$ 10.06); (ii) the W4A8 SmoothQuant procedure (9.29 $\rightarrow$ 8.68); and (iii) the W2A4KV4 SpinQuant procedure (66.11 $\rightarrow$ 19.42).
- Abstract(参考訳): 量子化は、大規模言語モデル(LLM)のストレージと計算フットプリントを削減する効果的な戦略である。
後学習量子化(PTQ)はLLMを圧縮する主要な手法である。
GPTQやRTNなどの一般的な量化手順は、特にアグレッシブ量子化レベル(sub-4-bit)においてモデルユーティリティに苦しむ。
本稿では,レイヤワイド量子化問題を考慮した新しい重み量子化アルゴリズムADMM-Qを提案する。
本アルゴリズムは, Alternating Direction Method of Multipliers (ADMM) の組合せ変種に基づく。
演算子分割手順では,階層的再構成誤差を最小限に抑えるために重みを継続的に更新し,コンバージェンス保証を伴う量子化制約を徐々に実施する。
LLMスケールでADMM-Qを効率的にするためのアルゴリズム拡張(ペナルティスケジューリング、プレコンディショニング、ローカル検索後処理ステップなど)を提案する。
ADMM-Qはモジュラーであり、既存の量子化パイプライン内の任意の量量化器のドロップイン代替として使用することができる: ADMM-Qは、レンジクリッピング、学習またはランダム回転、アクティベーションスケーリングを含む既存の技術と完全に構成可能である。
Qwen3-8B 上の GPTQ の代わりに ADMM-Q を用いることで、WikiText-2 の複雑さを減らします。
(i)W3A16重量限定設定(12.85$\rightarrow$10.06)
(ii)W4A8 SmoothQuantプロシージャ(9.29$\rightarrow$ 8.68)、
(三)W2A4KV4 SpinQuant(66.11 $\rightarrow$ 19.42)
関連論文リスト
- AAAC: Activation-Aware Adaptive Codebooks for 4-bit LLM Weight Quantization [2.9721401411878254]
トレーニング後の4ビットへの重みのみの量子化は、大規模言語モデル推論のメモリと計算コストの削減に広く用いられている。
4ビットLLM重み量子化のための軽量なAAAC(Activation-Aware Adaptive Codebooks)を提案する。
AWQ, GPTQ, IF4, GPTVQ, OmniQuant, SqueezeLLM, QuIP#をモデルファミリー間で評価した。
論文 参考訳(メタデータ) (2026-05-09T04:59:21Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [50.89500210372827]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
MMLUベンチマークでは,16ビットLORAを最大5.14%越えて,量子化モデルの性能を効果的に回復する。
論文 参考訳(メタデータ) (2025-05-24T14:47:28Z) - BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference [8.136601122570347]
後学習量子化(PTQ)は、より大きな言語モデル(LLM)のストレージと計算要求を、追加のトレーニングコストなしで削減するための有望なアプローチである。
最近のPTQ研究は、主に8ビット以上の活性化を維持しながら、重量のみを8ビット未満に定量化することに焦点を当てている。
論文 参考訳(メタデータ) (2025-02-07T23:06:03Z) - TesseraQ: Ultra Low-Bit LLM Post-Training Quantization with Block Reconstruction [20.903193906931687]
後学習量子化(PTQ)は、メモリフットプリントを減らし、大規模言語モデル(LLM)の推論スループットを向上させるデファクト手法になりつつある。
我々は,LLMの重みを超低ビットに定量化するために,最新のPTQ技術であるTesseraQを提案する。
我々は、TesseraQが既存のスケーリングやクリッピングベースのPTQアルゴリズムとシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-10-24T19:06:51Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化(LRQ)は、低ランクウェイトスケーリング行列を利用して中間トランスフォーマーブロックの出力を再構成する。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来のLLM PTQよりも, (i) 8ビットの重みとアクティベーションの量子化, (ii) 4ビットの重みと8ビットのアクティベーションの量子化, (iii) 低ビットの重みのみの量子化スキームにおいて, LRQの優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。