論文の概要: BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15689v1
- Date: Mon, 26 May 2025 14:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.748678
- Title: BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models
- Title(参考訳): BASE-Q:大規模言語モデルのためのバイアスと非対称スケーリング強化回転量子化
- Authors: Liulu He, Shenli Zhen, Karwei Sun, Yijiang Liu, Yufei Zhao, Chongkang Tan, Huanrui Yang, Yuan Du, Li Du,
- Abstract要約: BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
- 参考スコア(独自算出の注目度): 16.720321201956157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rotations have become essential to state-of-the-art quantization pipelines for large language models (LLMs) by effectively smoothing outliers in weights and activations. However, further optimizing the rotation parameters offers only limited performance gains and introduces significant training overhead: due to rotation parameter sharing, full-model must be loaded simultaneously to enable backpropagation, resulting in substantial memory consumption and limited practical utility. In this work, we identify two fundamental limitations of current rotational quantization methods: (i) rotation fails to align channel means, resulting in wider quantization bounds and increased rounding errors; and (ii) rotation makes the activation distribution more Gaussian-like, increasing energy loss caused by clipping errors. To address these issues, we introduce \textbf{BASE-Q}, a simple yet powerful approach that combines bias correction and asymmetric scaling to effectively reduce rounding and clipping errors. Furthermore, BASE-Q enables blockwise optimization, eliminating the need for memory-intensive full-model backpropagation. Extensive experiments on various LLMs and benchmarks demonstrate the effectiveness of BASE-Q, narrowing the accuracy gap to full-precision models by 50.5\%, 42.9\%, and 29.2\% compared to QuaRot, SpinQuant, and OSTQuant, respectively. The code will be released soon.
- Abstract(参考訳): 大型言語モデル(LLM)のための最先端量子化パイプラインでは、重み付けやアクティベーションのアウトレーヤを効果的に滑らかにすることで回転が不可欠になっている。
しかし、回転パラメータのさらなる最適化は、限られた性能向上しか提供せず、大きなトレーニングオーバーヘッドをもたらす: 回転パラメータの共有のため、バックプロパゲーションを可能にするためにフルモデルを同時にロードする必要があるため、メモリ消費が大幅に増加し、実用性が制限される。
本研究では、現在の回転量子化法の2つの基本的な限界を同定する。
i) 回転はチャネル平均の整合に失敗し、その結果、より広い量子化境界と丸め誤差が増大する。
(II)回転により活性化分布はガウス的になり、クリッピング誤差によるエネルギー損失が増大する。
これらの問題に対処するために, 偏差補正と非対称スケーリングを組み合わせて, ラウンドやクリッピングエラーを効果的に低減する, 単純かつ強力なアプローチである \textbf{BASE-Q} を導入する。
さらに、BASE-Qはブロックワイズ最適化を可能にし、メモリ集約型のフルモデルバックプロパゲーションを必要としない。
様々な LLM とベンチマークに関する大規模な実験では、BASE-Q の有効性が示され、精度の差は QuaRot、SpinQuant、OSTQuant と比較して 50.5\%、42.9\%、29.2\% に縮小された。
コードはまもなくリリースされる。
関連論文リスト
- Turning LLM Activations Quantization-Friendly [0.0]
量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。
しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。
本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。
論文 参考訳(メタデータ) (2025-05-11T17:13:55Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。