論文の概要: Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs
- arxiv url: http://arxiv.org/abs/2406.01721v1
- Date: Mon, 3 Jun 2024 18:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:11:55.568893
- Title: Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs
- Title(参考訳): LLMの高度な外部管理と効率的な量子化のための回転と置換
- Authors: Haokun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei,
- Abstract要約: 大規模言語モデル(LLM)の量子化は、主に外れ値のアクティベーションが原因で大きな課題となる。
回転変換と置換変換を併用した革新的な量子化戦略であるDuQuantを提案する。
- 参考スコア(独自算出の注目度): 40.48697728884967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantizing large language models (LLMs) presents significant challenges, primarily due to outlier activations that compromise the efficiency of low-bit representation. Traditional approaches mainly focus on solving Normal Outliers-activations with consistently high magnitudes across all tokens. However, these techniques falter when dealing with Massive Outliers, which are significantly higher in value and often cause substantial performance losses during low-bit quantization. In this study, we propose DuQuant, an innovative quantization strategy employing rotation and permutation transformations to more effectively eliminate both types of outliers. Initially, DuQuant constructs rotation matrices informed by specific outlier dimensions, redistributing these outliers across adjacent channels within different rotation blocks. Subsequently, a zigzag permutation is applied to ensure a balanced distribution of outliers among blocks, minimizing block-wise variance. An additional rotation further enhances the smoothness of the activation landscape, thereby improving model performance. DuQuant streamlines the quantization process and demonstrates superior outlier management, achieving top-tier results in multiple tasks with various LLM architectures even under 4-bit weight-activation quantization. Our code is available at https://github.com/Hsu1023/DuQuant.
- Abstract(参考訳): 大規模言語モデル(LLM)の量子化は、主に低ビット表現の効率を損なう外部アクティベーションが原因で、大きな課題を生んでいる。
従来のアプローチは主に、すべてのトークンに対して常に高い等級を持つ通常のアウトリーチ-アクティベーションの解決に重点を置いている。
しかし、これらの技術は、価値が著しく高く、低ビット量子化時に大きな性能損失を生じさせるような、大量出力器を扱う際には弱まる。
本研究では,2種類の外乱を効果的に除去するために,回転変換と置換変換を用いた革新的な量子化戦略であるDuQuantを提案する。
当初、DuQuantは特定の外周次元から情報を得た回転行列を構築し、異なる回転ブロック内の隣接チャネルでこれらの外周を再分配する。
その後、ブロック間の外れ値のバランスの取れた分布を確保するためにジグザグ置換を適用し、ブロック単位の分散を最小化する。
追加回転により、活性化ランドスケープの滑らか性がさらに向上し、モデル性能が向上する。
DuQuantは量子化プロセスの合理化を図り、4ビットのウェイトアクティベーション量子化の下でも、様々なLLMアーキテクチャで複数のタスクにおいて上位階層の結果を達成する。
私たちのコードはhttps://github.com/Hsu1023/DuQuant.comから入手可能です。
関連論文リスト
- PolarQuant: Leveraging Polar Transformation for Efficient Key Cache Quantization and Decoding Acceleration [26.972039704548184]
KVキャッシュを低ビット幅に量子化することは、計算コストを削減する効果的な方法である。
従来の手法では、外れ値による鍵ベクトルの定量化に苦労し、過剰なオーバーヘッドが発生する。
そこで我々はPolarQuantと呼ばれる新しい量子化手法を提案する。
論文 参考訳(メタデータ) (2025-02-01T18:59:03Z) - DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation [5.174900115018253]
共通トークンの外れ値を取り除き、類似の量子化誤差を実現することにより、大幅な改善が得られた。
これらのトークンの極端に希少性があり、それらの重要な影響がモデル精度に与える影響から、単純で効果的な方法である重み付き損失関数を構築した。
本手法は,DFRotと呼ばれる2自由度,外周自由度,質量活性度を両立させることにより回転LDMを向上する。
論文 参考訳(メタデータ) (2024-12-01T02:55:08Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。
提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文 参考訳(メタデータ) (2024-06-27T02:02:26Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。