論文の概要: Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling
- arxiv url: http://arxiv.org/abs/2304.09145v3
- Date: Mon, 23 Oct 2023 08:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:34:41.615969
- Title: Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling
- Title(参考訳): Outlier Suppression+: 等価および最適シフトとスケーリングによる大規模言語モデルの正確な量子化
- Authors: Xiuying Wei, Yunchen Zhang, Yuhang Li, Xiangguo Zhang, Ruihao Gong,
Jinyang Guo, Xianglong Liu
- Abstract要約: トランスフォーマー言語モデルの学習後の量子化は、アクティベーションにおける有害なアウトレイアの存在による課題に直面している。
本研究では,非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+(OS+)フレームワークを提案する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
- 参考スコア(独自算出の注目度): 44.60348333479704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization~(PTQ) of transformer language models faces
significant challenges due to the existence of detrimental outliers in
activations. We observe that these outliers are concentrated in specific
channels and are asymmetric across channels. To address this issue, we propose
the Outlier Suppression+~(OS+) framework, which contains the channel-wise
shifting for asymmetry and channel-wise scaling for concentration. We show that
these operations can be seamlessly migrated into subsequent modules while
maintaining equivalence. Second, we propose a fast and stable scheme to
calculate effective shifting and scaling values. The channel-wise shifting
aligns the center of each channel for removal of outlier asymmetry. The
channel-wise scaling quantitatively evaluates changes brought by migration and
quantization for better quantization burden balance. We validate our OS+ under
both standard and fine-grained quantization settings with models including
BERT, OPT, BLOOM, BLOOMZ, and LLaMA. Comprehensive results across various tasks
demonstrate the superiority of our approach. Especially, with standard
quantization, OS+ can achieve near-floating-point performance on both small
models and large language models on 8-bit and 6-bit. Besides, we establish a
new state-of-the-art for 4-bit BERT with 15.5\% improvement. Our code is
available at \url{https://github.com/ModelTC/Outlier_Suppression_Plus}.
- Abstract(参考訳): トランスフォーマー言語モデルの学習後の量子化〜(PTQ)は、アクティベーションにおける有害な外れ値の存在によって大きな課題に直面している。
これらの異常値は特定のチャネルに集中しており、チャネル間で非対称である。
この問題に対処するために、非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+~(OS+)フレームワークを提案する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
第2に,効率的なシフトとスケーリング値を計算するための高速で安定なスキームを提案する。
チャネルワイズシフトは、各チャネルの中心を整列させ、外周非対称性を除去する。
チャネルワイズスケーリングは、マイグレーションと量子化による変化を定量的に評価し、量子化の負荷バランスを改善する。
BERT, OPT, BLOOM, BLOOMZ, LLaMAなどのモデルを用いて, 標準および微細な量子化設定下でOS+を検証する。
様々なタスクにわたる総合的な結果は、我々のアプローチの優位性を示している。
特に標準量子化では、os+は8ビットと6ビットの小さなモデルと大きな言語モデルの両方で浮動小数点性能を達成できる。
さらに,4ビットBERTを15.5%改善した新たな最先端技術を確立する。
私たちのコードは \url{https://github.com/ModelTC/Outlier_Suppression_Plus} で利用可能です。
関連論文リスト
- OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。
提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文 参考訳(メタデータ) (2024-06-27T02:02:26Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。