論文の概要: WINDQuant: Weight-Informed Neural Decision-Making for Global Mixed-Precision LLM Quantization
- arxiv url: http://arxiv.org/abs/2605.26660v2
- Date: Sun, 31 May 2026 09:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 00:57:58.889971
- Title: WINDQuant: Weight-Informed Neural Decision-Making for Global Mixed-Precision LLM Quantization
- Title(参考訳): WINDQuant:大域的混合精度LDM量子化のための重み付きニューラル決定法
- Authors: Phong Nam Huu Nguyen, Khoi M. Le, Cong-Duy T Nguyen, Anh Tuan Luu, Thong Thanh Nguyen, Tho Quan,
- Abstract要約: WINDQuantは超低ビットLLM量子化のための強化学習に基づくアロケーションコントローラである。
グローバルストレージ予算の下で、ビット幅と量子化処理をきめ細かいカラムチャンクに割り当てる方法を学ぶ。
LLaMAモデルを用いた実験により、WINDQuantは超低ビット設定で競合性能を達成することが示された。
- 参考スコア(独自算出の注目度): 40.655670203062805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is an effective approach to reduce the memory footprint and inference cost of large language models (LLMs), yet maintaining performance in the ultra-low-bit regime remains challenging. Existing post-training methods often suffer from severe accuracy degradation, while quantization-aware training requires costly retraining and additional resources. Moreover, most mixed-precision strategies rely on coarse-grained or heuristic sensitivity analysis that overlooks fine-grained variations within weight matrices. We propose WINDQuant, a reinforcement-learning-based allocation controller for ultra-low-bit LLM quantization. Rather than introducing another low-level quantization operator, WINDQuant learns how to assign bit-widths and quantization treatments to fine-grained column chunks under a global storage budget. By operating at the column-chunk level, WINDQuant enables flexible and fine-grained precision assignment within layers under a global target bit-width. The implementation combines PPO with activation-aware calibration, lightweight per-unit quantizer fitting, and explicit effective-bit accounting of the learned mixed-precision plan. Experiments on LLaMA models demonstrate that WINDQuant achieves competitive performance in ultra-low-bit settings while reducing optimization overhead relative to retraining-based approaches, highlighting reinforcement learning as a practical controller for adaptive mixed-precision quantization.
- Abstract(参考訳): 量子化は、大きな言語モデル(LLM)のメモリフットプリントと推論コストを削減するための効果的なアプローチであるが、超低ビット状態における性能を維持することは依然として困難である。
既存のポストトレーニング手法は、しばしば深刻な精度の劣化に悩まされるが、量子化対応のトレーニングには、コストのかかる再トレーニングと追加のリソースが必要である。
さらに、ほとんどの混合精度戦略は、重量行列のきめ細かい変化を見落としている粗い粒度またはヒューリスティックな感度分析に依存している。
超低ビットLLM量子化のための強化学習に基づくアロケーションコントローラWINDQuantを提案する。
WINDQuantは、別の低レベル量子化演算子を導入する代わりに、ビット幅と量子化処理をグローバルストレージ予算の下で細粒度カラムチャンクに割り当てる方法を学ぶ。
カラムチャンクレベルで操作することで、WINDQuantはグローバルなターゲットビット幅の下の層内で柔軟できめ細かい精度割り当てを可能にする。
この実装はPPOとアクティベーション対応キャリブレーション、単位単位当たりの量子化器の軽量化、学習された混合精度計画の明示的な有効ビット会計を組み合わせる。
LLaMAモデルを用いた実験により、WINDQuantは、適応的混合精度量子化のための実用的なコントローラとして強化学習を強調しながら、超低ビット設定での競合性能を実現する。
関連論文リスト
- Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。
まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文 参考訳(メタデータ) (2025-09-24T15:10:44Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。
重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。
本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2024-10-16T21:34:41Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。