論文の概要: ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
- arxiv url: http://arxiv.org/abs/2511.10645v1
- Date: Fri, 14 Nov 2025 02:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.973114
- Title: ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
- Title(参考訳): ParoQuant: LLM推論の効率的な推論のためのペアワイズ回転量子化
- Authors: Yesheng Liang, Haisheng Chen, Song Han, Zhijian Liu,
- Abstract要約: 後学習量子化(PTQ)は、Large Language Models(LLM)の重みを低精度表現に圧縮し、メモリフットプリントを減らし、推論を加速する。
重みとアクティベーションにおける外れ値の存在は、しばしば大きな量子化誤差と深刻な精度低下をもたらす。
Pairwise Rotation Quantization (ParoQuant) を提案する。
ParoQuantは平均2.4%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 13.283581083797484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight-only post-training quantization (PTQ) compresses the weights of Large Language Models (LLMs) into low-precision representations to reduce memory footprint and accelerate inference. However, the presence of outliers in weights and activations often leads to large quantization errors and severe accuracy degradation, especially in recent reasoning LLMs where errors accumulate across long chains of thought. Existing PTQ methods either fail to sufficiently suppress outliers or introduce significant overhead during inference. In this paper, we propose Pairwise Rotation Quantization (ParoQuant), a weight-only PTQ method that combines hardware-efficient and optimizable independent Givens rotations with channel-wise scaling to even out the magnitude across channels and narrow the dynamic range within each quantization group. We further co-design the inference kernel to fully exploit GPU parallelism and keep the rotations and scaling lightweight at runtime. ParoQuant achieves an average 2.4% accuracy improvement over AWQ on reasoning tasks with less than 10% overhead. This paves the way for more efficient and accurate deployment of reasoning LLMs.
- Abstract(参考訳): 重みのみのポストトレーニング量子化(PTQ)は、大言語モデル(LLM)の重みを低精度の表現に圧縮し、メモリフットプリントを減らし、推論を加速する。
しかし、重みやアクティベーションにおける外れ値の存在は、しばしば大きな量子化誤差と深刻な精度劣化をもたらす。
既存のPTQメソッドは、異常値を十分に抑えられないか、推論中にかなりのオーバーヘッドを発生させるかのいずれかである。
本稿では,Pairwise Rotation Quantization (ParoQuant)を提案する。Pairwise Rotation Quantization (Pairwise Rotation Quantization) は,ハードウェア効率と最適化可能な独立グッズローテーションをチャネルワイズスケーリングと組み合わせ,各量子化グループ内の動的範囲を狭める。
さらに、推論カーネルを共同設計して、GPU並列性をフル活用し、ローテーションと実行時のスケーリングを軽量に保ちます。
ParoQuantは平均2.4%の精度向上を実現している。
これにより、推論 LLM のより効率的で正確なデプロイの道が開ける。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。
まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文 参考訳(メタデータ) (2025-09-24T15:10:44Z) - BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [25.783531928577233]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文 参考訳(メタデータ) (2025-05-26T14:22:21Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。