論文の概要: Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling
- arxiv url: http://arxiv.org/abs/2304.09145v1
- Date: Tue, 18 Apr 2023 17:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 13:43:05.049469
- Title: Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling
- Title(参考訳): Outlier Suppression+: 等価および最適シフトとスケーリングによる大規模言語モデルの正確な量子化
- Authors: Xiuying Wei, Yunchen Zhang, Yuhang Li, Xiangguo Zhang, Ruihao Gong,
Jinyang Guo, Xianglong Liu
- Abstract要約: トランスフォーマー言語モデルの量子化は、アクティベーションにおける有害なアウトリーチの存在によって大きな課題に直面している。
非対称な表現を排除し、問題のあるチャンネルをスケールダウンするためのOutlier Suppression+フレームワークを提案する。
提案手法は, BERT などの小型モデルと OPT, BLOOM, BLOOMZ などの大規模言語モデル (LLM) を8ビット・6ビット設定でニアフローティングポイントで実現する。
- 参考スコア(独自算出の注目度): 45.71876069368499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization of transformer language models faces significant challenges due
to the existence of detrimental outliers in activations. We observe that these
outliers are asymmetric and concentrated in specific channels. To address this
issue, we propose the Outlier Suppression+ framework. First, we introduce
channel-wise shifting and scaling operations to eliminate asymmetric
presentation and scale down problematic channels. We demonstrate that these
operations can be seamlessly migrated into subsequent modules while maintaining
equivalence. Second, we quantitatively analyze the optimal values for shifting
and scaling, taking into account both the asymmetric property and quantization
errors of weights in the next layer. Our lightweight framework can incur
minimal performance degradation under static and standard post-training
quantization settings. Comprehensive results across various tasks and models
reveal that our approach achieves near-floating-point performance on both small
models, such as BERT, and large language models (LLMs) including OPTs, BLOOM,
and BLOOMZ at 8-bit and 6-bit settings. Furthermore, we establish a new state
of the art for 4-bit BERT.
- Abstract(参考訳): トランスフォーマー言語モデルの量子化は、アクティベーションにおける有害なアウトリーチの存在によって大きな課題に直面している。
これらは非対称であり、特定のチャネルに集中している。
この問題に対処するため,我々はOutlier Suppression+フレームワークを提案する。
まず,非対称な表現を排除し,問題のあるチャネルをスケールダウンするために,チャネル毎のシフトとスケーリング操作を導入する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行できることを実証する。
第2に、次の層における重みの非対称性と量子化誤差を考慮し、シフトとスケーリングの最適値を定量的に分析する。
我々の軽量フレームワークは、静的および標準のトレーニング後の量子化設定下で、最小限のパフォーマンス劣化を発生させることができる。
OPT,BLOOM,BLOOMZを含む大規模言語モデル(LLM)の8ビット・6ビット設定において,BERTなどの小型モデルと大規模言語モデル(LLM)の双方でほぼフローティングポイントの性能を実現する。
さらに,4ビットBERTの新たな最先端技術を確立した。
関連論文リスト
- OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。
提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文 参考訳(メタデータ) (2024-06-27T02:02:26Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。