論文の概要: BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15689v1
- Date: Mon, 26 May 2025 14:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.748678
- Title: BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models
- Title(参考訳): BASE-Q:大規模言語モデルのためのバイアスと非対称スケーリング強化回転量子化
- Authors: Liulu He, Shenli Zhen, Karwei Sun, Yijiang Liu, Yufei Zhao, Chongkang Tan, Huanrui Yang, Yuan Du, Li Du,
- Abstract要約: BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
- 参考スコア(独自算出の注目度): 16.720321201956157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rotations have become essential to state-of-the-art quantization pipelines for large language models (LLMs) by effectively smoothing outliers in weights and activations. However, further optimizing the rotation parameters offers only limited performance gains and introduces significant training overhead: due to rotation parameter sharing, full-model must be loaded simultaneously to enable backpropagation, resulting in substantial memory consumption and limited practical utility. In this work, we identify two fundamental limitations of current rotational quantization methods: (i) rotation fails to align channel means, resulting in wider quantization bounds and increased rounding errors; and (ii) rotation makes the activation distribution more Gaussian-like, increasing energy loss caused by clipping errors. To address these issues, we introduce \textbf{BASE-Q}, a simple yet powerful approach that combines bias correction and asymmetric scaling to effectively reduce rounding and clipping errors. Furthermore, BASE-Q enables blockwise optimization, eliminating the need for memory-intensive full-model backpropagation. Extensive experiments on various LLMs and benchmarks demonstrate the effectiveness of BASE-Q, narrowing the accuracy gap to full-precision models by 50.5\%, 42.9\%, and 29.2\% compared to QuaRot, SpinQuant, and OSTQuant, respectively. The code will be released soon.
- Abstract(参考訳): 大型言語モデル(LLM)のための最先端量子化パイプラインでは、重み付けやアクティベーションのアウトレーヤを効果的に滑らかにすることで回転が不可欠になっている。
しかし、回転パラメータのさらなる最適化は、限られた性能向上しか提供せず、大きなトレーニングオーバーヘッドをもたらす: 回転パラメータの共有のため、バックプロパゲーションを可能にするためにフルモデルを同時にロードする必要があるため、メモリ消費が大幅に増加し、実用性が制限される。
本研究では、現在の回転量子化法の2つの基本的な限界を同定する。
i) 回転はチャネル平均の整合に失敗し、その結果、より広い量子化境界と丸め誤差が増大する。
(II)回転により活性化分布はガウス的になり、クリッピング誤差によるエネルギー損失が増大する。
これらの問題に対処するために, 偏差補正と非対称スケーリングを組み合わせて, ラウンドやクリッピングエラーを効果的に低減する, 単純かつ強力なアプローチである \textbf{BASE-Q} を導入する。
さらに、BASE-Qはブロックワイズ最適化を可能にし、メモリ集約型のフルモデルバックプロパゲーションを必要としない。
様々な LLM とベンチマークに関する大規模な実験では、BASE-Q の有効性が示され、精度の差は QuaRot、SpinQuant、OSTQuant と比較して 50.5\%、42.9\%、29.2\% に縮小された。
コードはまもなくリリースされる。
関連論文リスト
- LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation [34.14174796390669]
トレーニング後の量子化(PTQ)は、メモリ使用量を減らすとともに、推論を高速化する有望なソリューションである。
既存のPTQ手法は、極端に低ビット設定下での厳しい性能劣化に悩まされる。
本稿では,効率的なPTQフレームワークであるLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization [29.066284789131494]
最近のトレーニング後の量子化法は、外乱を無視し、低ビット幅での劣化性能をもたらす。
本稿では,Learned Equivalent ScalingとチャネルワイドのPower-of-Two Scalingを組み合わせたDMQを提案する。
提案手法は,特に低ビット幅において,既存の処理性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-17T09:15:29Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs [0.0]
SmoothRotは、大規模言語モデル(LLM)における4ビット量子化の効率を高めるための、新しい学習後の量子化手法である。
本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-04T19:07:45Z) - Turning LLM Activations Quantization-Friendly [0.0]
量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。
しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。
本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。
論文 参考訳(メタデータ) (2025-05-11T17:13:55Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。