論文の概要: OptRot: Mitigating Weight Outliers via Data-Free Rotations for Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2512.24124v1
- Date: Tue, 30 Dec 2025 10:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.355306
- Title: OptRot: Mitigating Weight Outliers via Data-Free Rotations for Post-Training Quantization
- Title(参考訳): OptRot: トレーニング後の量子化のためのデータ自由回転によるウェイトアウトリーチの緩和
- Authors: Advait Gadhikar, Riccardo Grazzi, James Hensman,
- Abstract要約: 本稿では、量子化誤差を重み付けするために、原理的かつ安価なプロキシ目的を最小化することで回転を学習する手法を提案する。
主手法はOptRotであり、回転した重みの要素ワイド第4のパワーを最小化することで、重みのアウトリーを小さくする。
- 参考スコア(独自算出の注目度): 9.958479437486288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of outliers in Large Language Models (LLMs) weights and activations makes them difficult to quantize. Recent work has leveraged rotations to mitigate these outliers. In this work, we propose methods that learn fusible rotations by minimizing principled and cheap proxy objectives to the weight quantization error. We primarily focus on GPTQ as the quantization method. Our main method is OptRot, which reduces weight outliers simply by minimizing the element-wise fourth power of the rotated weights. We show that OptRot outperforms both Hadamard rotations and more expensive, data-dependent methods like SpinQuant and OSTQuant for weight quantization. It also improves activation quantization in the W4A8 setting. We also propose a data-dependent method, OptRot$^{+}$, that further improves performance by incorporating information on the activation covariance. In the W4A4 setting, we see that both OptRot and OptRot$^{+}$ perform worse, highlighting a trade-off between weight and activation quantization.
- Abstract(参考訳): LLM(Large Language Models)の重みとアクティベーションにおける外れ値の存在は、定量化を難しくする。
最近の研究は、これらの降圧を緩和するために回転を活用している。
本研究では,重み量子化誤差に対して,原理的かつ安価な代用目標を最小化することにより,可解回転を学習する手法を提案する。
我々は主に量子化法としてGPTQに焦点を当てる。
主手法はOptRotであり、回転した重みの要素ワイド第4のパワーを最小化することで、重みのアウトリーを小さくする。
我々は、OptRotがアダマール回転とSpinQuantやOSTQuantのようなより高価でデータ依存の手法の両方を上回り、重量量子化を行うことを示す。
また、W4A8設定でのアクティベーション量子化も改善する。
また,アクティベーション共分散に関する情報を組み込んだデータ依存手法 OptRot$^{+}$ も提案する。
W4A4 設定では OptRot と OptRot$^{+} の両方がより悪く、重みとアクティベーション量子化の間のトレードオフが強調される。
関連論文リスト
- SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs [72.26197676852958]
ローテーションに基づく新しい量子化方式であるQuaRotを紹介する。
QuaRotは、すべての重み、アクティベーション、KVキャッシュを含むエンドツーエンドを4ビットで量子化する。
我々の4ビット量子化LLaMa2-70Bモデルは、少なくとも0.47 WikiText-2パープレキシティが失われ、ゼロショット性能の99%を維持している。
論文 参考訳(メタデータ) (2024-03-30T19:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。