Fugu-MT 論文翻訳(概要): Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs

論文の概要: Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs

arxiv url: http://arxiv.org/abs/2406.01721v1
Date: Mon, 3 Jun 2024 18:27:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 21:11:55.568893
Title: Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs
Title（参考訳）: LLMの高度な外部管理と効率的な量子化のための回転と置換
Authors: Haokun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei,
Abstract要約: 大規模言語モデル(LLM)の量子化は、主に外れ値のアクティベーションが原因で大きな課題となる。回転変換と置換変換を併用した革新的な量子化戦略であるDuQuantを提案する。
参考スコア（独自算出の注目度）: 40.48697728884967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantizing large language models (LLMs) presents significant challenges, primarily due to outlier activations that compromise the efficiency of low-bit representation. Traditional approaches mainly focus on solving Normal Outliers-activations with consistently high magnitudes across all tokens. However, these techniques falter when dealing with Massive Outliers, which are significantly higher in value and often cause substantial performance losses during low-bit quantization. In this study, we propose DuQuant, an innovative quantization strategy employing rotation and permutation transformations to more effectively eliminate both types of outliers. Initially, DuQuant constructs rotation matrices informed by specific outlier dimensions, redistributing these outliers across adjacent channels within different rotation blocks. Subsequently, a zigzag permutation is applied to ensure a balanced distribution of outliers among blocks, minimizing block-wise variance. An additional rotation further enhances the smoothness of the activation landscape, thereby improving model performance. DuQuant streamlines the quantization process and demonstrates superior outlier management, achieving top-tier results in multiple tasks with various LLM architectures even under 4-bit weight-activation quantization. Our code is available at https://github.com/Hsu1023/DuQuant.
Abstract（参考訳）: 大規模言語モデル(LLM)の量子化は、主に低ビット表現の効率を損なう外部アクティベーションが原因で、大きな課題を生んでいる。従来のアプローチは主に、すべてのトークンに対して常に高い等級を持つ通常のアウトリーチ-アクティベーションの解決に重点を置いている。しかし、これらの技術は、価値が著しく高く、低ビット量子化時に大きな性能損失を生じさせるような、大量出力器を扱う際には弱まる。本研究では,2種類の外乱を効果的に除去するために,回転変換と置換変換を用いた革新的な量子化戦略であるDuQuantを提案する。当初、DuQuantは特定の外周次元から情報を得た回転行列を構築し、異なる回転ブロック内の隣接チャネルでこれらの外周を再分配する。その後、ブロック間の外れ値のバランスの取れた分布を確保するためにジグザグ置換を適用し、ブロック単位の分散を最小化する。追加回転により、活性化ランドスケープの滑らか性がさらに向上し、モデル性能が向上する。 DuQuantは量子化プロセスの合理化を図り、4ビットのウェイトアクティベーション量子化の下でも、様々なLLMアーキテクチャで複数のタスクにおいて上位階層の結果を達成する。私たちのコードはhttps://github.com/Hsu1023/DuQuant.comから入手可能です。

関連論文リスト

SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs [0.0]
SmoothRotは、大規模言語モデル(LLM)における4ビット量子化の効率を高めるための、新しい学習後の量子化手法である。本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-06-04T19:07:45Z)
Gradual Binary Search and Dimension Expansion : A general method for activation quantization in LLMs [1.4999444543328293]
大規模言語モデル(LLM)は、推論、理解、データ生成において強力な能力を示す人工知能において重要な存在となっている。量子化はメモリ使用量と推論時間を削減するために広く用いられている手法であるが、LCMはアクティベーションにおける異常値の出現により、ユニークな課題を示す。我々は、アダマール行列が、低ビット量子化を達成する上で重要な障害である外れ値を減らすのにより効果的であることを実証した。
論文参考訳（メタデータ） (2025-04-18T13:46:58Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation [5.174900115018253]
共通トークンの外れ値を取り除き、類似の量子化誤差を実現することにより、大幅な改善が得られた。これらのトークンの極端に希少性があり、それらの重要な影響がモデル精度に与える影響から、単純で効果的な方法である重み付き損失関数を構築した。本手法は,DFRotと呼ばれる2自由度,外周自由度,質量活性度を両立させることにより回転LDMを向上する。
論文参考訳（メタデータ） (2024-12-01T02:55:08Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。 Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文参考訳（メタデータ） (2024-09-30T14:59:22Z)
OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文参考訳（メタデータ） (2024-06-27T02:02:26Z)
I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models [20.070306492164427]
学習後の量子化は、大きな言語モデルの推論を加速する強力な技術として機能する。既存の作業は、推論中にかなりの数の浮動小数点(FP)操作を必要とする。この制限は、エッジとクラウドデバイス上の大きな言語モデルのデプロイを妨げる。大規模言語モデルに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
論文参考訳（メタデータ） (2024-05-28T05:56:11Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文参考訳（メタデータ） (2023-09-27T09:48:31Z)
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文参考訳（メタデータ） (2023-06-22T14:39:04Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization [51.85834744835766]
任意のビット幅量子化のための新しい手法MBQuantを提案する。本稿では,既存の任意のビット幅量子化法と比較して,MBQuantが大幅な性能向上を実現していることを示す。
論文参考訳（メタデータ） (2023-05-14T10:17:09Z)
Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文参考訳（メタデータ） (2022-09-27T12:05:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。