論文の概要: Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs
- arxiv url: http://arxiv.org/abs/2406.01721v1
- Date: Mon, 3 Jun 2024 18:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:11:55.568893
- Title: Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs
- Title(参考訳): LLMの高度な外部管理と効率的な量子化のための回転と置換
- Authors: Haokun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei,
- Abstract要約: 大規模言語モデル(LLM)の量子化は、主に外れ値のアクティベーションが原因で大きな課題となる。
回転変換と置換変換を併用した革新的な量子化戦略であるDuQuantを提案する。
- 参考スコア(独自算出の注目度): 40.48697728884967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantizing large language models (LLMs) presents significant challenges, primarily due to outlier activations that compromise the efficiency of low-bit representation. Traditional approaches mainly focus on solving Normal Outliers-activations with consistently high magnitudes across all tokens. However, these techniques falter when dealing with Massive Outliers, which are significantly higher in value and often cause substantial performance losses during low-bit quantization. In this study, we propose DuQuant, an innovative quantization strategy employing rotation and permutation transformations to more effectively eliminate both types of outliers. Initially, DuQuant constructs rotation matrices informed by specific outlier dimensions, redistributing these outliers across adjacent channels within different rotation blocks. Subsequently, a zigzag permutation is applied to ensure a balanced distribution of outliers among blocks, minimizing block-wise variance. An additional rotation further enhances the smoothness of the activation landscape, thereby improving model performance. DuQuant streamlines the quantization process and demonstrates superior outlier management, achieving top-tier results in multiple tasks with various LLM architectures even under 4-bit weight-activation quantization. Our code is available at https://github.com/Hsu1023/DuQuant.
- Abstract(参考訳): 大規模言語モデル(LLM)の量子化は、主に低ビット表現の効率を損なう外部アクティベーションが原因で、大きな課題を生んでいる。
従来のアプローチは主に、すべてのトークンに対して常に高い等級を持つ通常のアウトリーチ-アクティベーションの解決に重点を置いている。
しかし、これらの技術は、価値が著しく高く、低ビット量子化時に大きな性能損失を生じさせるような、大量出力器を扱う際には弱まる。
本研究では,2種類の外乱を効果的に除去するために,回転変換と置換変換を用いた革新的な量子化戦略であるDuQuantを提案する。
当初、DuQuantは特定の外周次元から情報を得た回転行列を構築し、異なる回転ブロック内の隣接チャネルでこれらの外周を再分配する。
その後、ブロック間の外れ値のバランスの取れた分布を確保するためにジグザグ置換を適用し、ブロック単位の分散を最小化する。
追加回転により、活性化ランドスケープの滑らか性がさらに向上し、モデル性能が向上する。
DuQuantは量子化プロセスの合理化を図り、4ビットのウェイトアクティベーション量子化の下でも、様々なLLMアーキテクチャで複数のタスクにおいて上位階層の結果を達成する。
私たちのコードはhttps://github.com/Hsu1023/DuQuant.comから入手可能です。
関連論文リスト
- Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。
提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文 参考訳(メタデータ) (2024-06-27T02:02:26Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Deep Neural Networks with Efficient Guaranteed Invariances [77.99182201815763]
我々は、性能改善の問題、特にディープニューラルネットワークのサンプル複雑性に対処する。
群同変畳み込みは同変表現を得るための一般的なアプローチである。
本稿では,各ストリームが異なる変換に不変なマルチストリームアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-02T20:44:45Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。