論文の概要: SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs
- arxiv url: http://arxiv.org/abs/2506.05413v1
- Date: Wed, 04 Jun 2025 19:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.139082
- Title: SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs
- Title(参考訳): SmoothRot: チャネルワイズスケーリングと回転を組み合わせた量子化対応LCM
- Authors: Patrik Czakó, Gábor Kertész, Sándor Szénási,
- Abstract要約: SmoothRotは、大規模言語モデル(LLM)における4ビット量子化の効率を高めるための、新しい学習後の量子化手法である。
本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SmoothRot, a novel post-training quantization technique to enhance the efficiency of 4-bit quantization in Large Language Models (LLMs). SmoothRot addresses the critical challenge of massive activation outliers, by integrating channel-wise scaling with Hadamard transformations. Our technique effectively transforms extreme outliers into quantization-friendly activations, significantly improving quantization accuracy. Experiments conducted on popular LLMs (LLaMA2 7B, LLaMA3.1 8B, and Mistral 7B) demonstrate that SmoothRot consistently reduces the performance gap between quantized and FP16 models by approximately 10-30\% across language generation and zero-shot reasoning tasks, without introducing additional inference latency. Code is available at https://github.com/czakop/smoothrot.
- Abstract(参考訳): SmoothRotは,Large Language Models (LLMs) における4ビット量子化の効率を高めるための,新しい学習後の量子化手法である。
SmoothRotは、チャネルワイドスケーリングとHadamard変換を統合することで、大規模なアクティベーションアウトレーラの致命的な課題に対処する。
本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
人気のあるLLM(LLaMA2 7B、LLaMA3.1 8B、Mistral 7B)で実施された実験では、SmoothRotは推論遅延を導入することなく、言語生成とゼロショット推論タスク間で、量子化モデルとFP16モデルのパフォーマンスギャップを約10-30\%削減することを示した。
コードはhttps://github.com/czakop/smoothrot.comで入手できる。
関連論文リスト
- BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [16.720321201956157]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文 参考訳(メタデータ) (2025-05-26T14:22:21Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。
LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。
本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文 参考訳(メタデータ) (2025-01-23T08:24:25Z) - DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation [5.174900115018253]
共通トークンの外れ値を取り除き、類似の量子化誤差を実現することにより、大幅な改善が得られた。
これらのトークンの極端に希少性があり、それらの重要な影響がモデル精度に与える影響から、単純で効果的な方法である重み付き損失関数を構築した。
本手法は,DFRotと呼ばれる2自由度,外周自由度,質量活性度を両立させることにより回転LDMを向上する。
論文 参考訳(メタデータ) (2024-12-01T02:55:08Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs [72.26197676852958]
ローテーションに基づく新しい量子化方式であるQuaRotを紹介する。
QuaRotは、すべての重み、アクティベーション、KVキャッシュを含むエンドツーエンドを4ビットで量子化する。
我々の4ビット量子化LLaMa2-70Bモデルは、少なくとも0.47 WikiText-2パープレキシティが失われ、ゼロショット性能の99%を維持している。
論文 参考訳(メタデータ) (2024-03-30T19:20:06Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。