論文の概要: InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization
- arxiv url: http://arxiv.org/abs/2605.26175v1
- Date: Mon, 25 May 2026 05:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.27057
- Title: InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization
- Title(参考訳): InfoQuant: 低ビットLDM量子化のための活性化分布の形成
- Authors: Ke Li, Dong An, Xiaoling Zang, Can Ye, Liang Xie, Qibo Qiu, Chen Shen, Xiaofei He, Wenxiao Wang,
- Abstract要約: 低ビットアクティベーション量子化は、大規模言語モデル(LLM)デプロイメントにおいて依然として大きなボトルネックとなっている。
既存のトレーニング後の量子化手法は、ピーク、バランスチャネル、再構築エラーを最小限に抑える。
我々は,アクティベーション変換を量化器対応分布設計として再キャストし,情報理論の観点から量子化誤差を解析する。
我々は,Pak Suppression Orthogonal Transformation (PSOT) を用いて,アクティベーションをより量子化しやすい分布に整形する列車フリー手法であるInfoQuantを提案する。
- 参考スコア(独自算出の注目度): 16.236156118201116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-bit activation quantization remains a major bottleneck in efficient large language model (LLM) deployment. The difficulty is not only that activations contain outliers, but that their distributions are often poorly matched to a low-bit uniform quantizer. Existing post-training quantization (PTQ) methods suppress peaks, balance channels, or minimize reconstruction error, yet they rarely specify what activation distribution is actually easy to discretize. As a result, activations may appear numerically smoother while still incurring large quantization error because the quantization range remains wide or most values collapse into a few levels near the mean. We recast activation transformation as quantizer-facing distribution design and analyze quantization error from an information-theoretic perspective. Our analysis shows that quantization-friendly activations should jointly have a smaller numerical range and sufficient dispersion within that range. Guided by this analysis, we propose InfoQuant, a train-free method that employs Peak Suppression Orthogonal Transformation (PSOT) to shape activations into more quantization-friendly distributions. We further introduce adaptive outlier-token selection to improve the robustness of PSOT during optimization. Across multiple LLM families, InfoQuant consistently outperforms prior PTQ and end-to-end training baselines. Under W4A4KV4, it preserves 97% of floating-point accuracy on average and reduces the LLaMA-2 13B performance gap by 42% over the previous state of the art. Code is available at [https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant)
- Abstract(参考訳): 低ビットアクティベーション量子化は、効率的な大規模言語モデル(LLM)デプロイメントにおいて、依然として大きなボトルネックとなっている。
難しいのは、アクティベーションが外れ値を含むだけでなく、それらの分布が低ビットの均一量子化器とよく一致しないことである。
既存のトレーニング後の量子化(PTQ)手法はピーク、バランスチャネル、再構成エラーの最小化を抑えるが、どのアクティベーション分布が実際に識別し易いかを特定することは滅多にない。
その結果、量子化範囲が広いか、ほとんどの値が平均付近のいくつかのレベルに崩壊するため、大きな量子化誤差を発生させながら、アクティベーションは数値的に滑らかに現れる。
我々は,アクティベーション変換を量化器対応分布設計として再キャストし,情報理論の観点から量子化誤差を解析する。
分析の結果、量子化フレンドリなアクティベーションは、その範囲内でより小さい数値範囲と十分な分散を持つべきであることが示された。
そこで本研究では,Pak Suppression Orthogonal Transformation (PSOT) を用いて,アクティベーションをより量子化しやすい分布に変換する列車自由化手法である InfoQuant を提案する。
さらに,最適化時のPSOTのロバスト性を改善するために,適応型外乱選択を導入する。
複数のLLMファミリで、InfoQuantはPTQ以前のトレーニングベースラインとエンドツーエンドのトレーニングベースラインを一貫して上回っている。
W4A4KV4では、平均で浮動小数点精度の97%を維持し、LLaMA-2 13Bのパフォーマンスギャップを42%削減する。
コードは[https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant]で入手できる。
関連論文リスト
- RUQuant: Towards Refining Uniform Quantization for Large Language Models [17.258420059228808]
ポストトレーニング量子化(PTQ)は、再トレーニングを必要とせずにモデルを圧縮することで、実用的なソリューションとして登場した。
既存の方法は、アクティベーション分布の非一様性により、かなりの精度の劣化に悩まされることが多い。
本研究では,ロイド-マックス最適条件に基づく理論的な観点から,活性化量子化問題を再考する。
論文 参考訳(メタデータ) (2026-04-05T08:04:39Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。
LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。
本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文 参考訳(メタデータ) (2025-01-23T08:24:25Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - LSQ+: Improving low-bit quantization through learnable offsets and
better initialization [43.59213570404785]
学習可能な量子化スキームは、アクティベーションの符号なし量子化を仮定し、全ての負のアクティベーションをゼロに量子化する。
我々はLSQ+を提案し、トレーニング可能なスケールとオフセットパラメータを持つ一般的な非対称量子化スキームを導入する。
LSQ+は、EfficientNetとMixNetの最先端の結果を示し、Swishアクティベーションを持つニューラルネットの低ビット量子化において、LSQを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-04-20T19:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。