論文の概要: SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs
- arxiv url: http://arxiv.org/abs/2506.05413v1
- Date: Wed, 04 Jun 2025 19:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.139082
- Title: SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs
- Title(参考訳): SmoothRot: チャネルワイズスケーリングと回転を組み合わせた量子化対応LCM
- Authors: Patrik Czakó, Gábor Kertész, Sándor Szénási,
- Abstract要約: SmoothRotは、大規模言語モデル(LLM)における4ビット量子化の効率を高めるための、新しい学習後の量子化手法である。
本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SmoothRot, a novel post-training quantization technique to enhance the efficiency of 4-bit quantization in Large Language Models (LLMs). SmoothRot addresses the critical challenge of massive activation outliers, by integrating channel-wise scaling with Hadamard transformations. Our technique effectively transforms extreme outliers into quantization-friendly activations, significantly improving quantization accuracy. Experiments conducted on popular LLMs (LLaMA2 7B, LLaMA3.1 8B, and Mistral 7B) demonstrate that SmoothRot consistently reduces the performance gap between quantized and FP16 models by approximately 10-30\% across language generation and zero-shot reasoning tasks, without introducing additional inference latency. Code is available at https://github.com/czakop/smoothrot.
- Abstract(参考訳): SmoothRotは,Large Language Models (LLMs) における4ビット量子化の効率を高めるための,新しい学習後の量子化手法である。
SmoothRotは、チャネルワイドスケーリングとHadamard変換を統合することで、大規模なアクティベーションアウトレーラの致命的な課題に対処する。
本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
人気のあるLLM(LLaMA2 7B、LLaMA3.1 8B、Mistral 7B)で実施された実験では、SmoothRotは推論遅延を導入することなく、言語生成とゼロショット推論タスク間で、量子化モデルとFP16モデルのパフォーマンスギャップを約10-30\%削減することを示した。
コードはhttps://github.com/czakop/smoothrot.comで入手できる。
関連論文リスト
- DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation [5.174900115018253]
共通トークンの外れ値を取り除き、類似の量子化誤差を実現することにより、大幅な改善が得られた。
これらのトークンの極端に希少性があり、それらの重要な影響がモデル精度に与える影響から、単純で効果的な方法である重み付き損失関数を構築した。
本手法は,DFRotと呼ばれる2自由度,外周自由度,質量活性度を両立させることにより回転LDMを向上する。
論文 参考訳(メタデータ) (2024-12-01T02:55:08Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。