論文の概要: Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling
- arxiv url: http://arxiv.org/abs/2304.09145v3
- Date: Mon, 23 Oct 2023 08:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:34:41.615969
- Title: Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling
- Title(参考訳): Outlier Suppression+: 等価および最適シフトとスケーリングによる大規模言語モデルの正確な量子化
- Authors: Xiuying Wei, Yunchen Zhang, Yuhang Li, Xiangguo Zhang, Ruihao Gong,
Jinyang Guo, Xianglong Liu
- Abstract要約: トランスフォーマー言語モデルの学習後の量子化は、アクティベーションにおける有害なアウトレイアの存在による課題に直面している。
本研究では,非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+(OS+)フレームワークを提案する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
- 参考スコア(独自算出の注目度): 44.60348333479704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization~(PTQ) of transformer language models faces
significant challenges due to the existence of detrimental outliers in
activations. We observe that these outliers are concentrated in specific
channels and are asymmetric across channels. To address this issue, we propose
the Outlier Suppression+~(OS+) framework, which contains the channel-wise
shifting for asymmetry and channel-wise scaling for concentration. We show that
these operations can be seamlessly migrated into subsequent modules while
maintaining equivalence. Second, we propose a fast and stable scheme to
calculate effective shifting and scaling values. The channel-wise shifting
aligns the center of each channel for removal of outlier asymmetry. The
channel-wise scaling quantitatively evaluates changes brought by migration and
quantization for better quantization burden balance. We validate our OS+ under
both standard and fine-grained quantization settings with models including
BERT, OPT, BLOOM, BLOOMZ, and LLaMA. Comprehensive results across various tasks
demonstrate the superiority of our approach. Especially, with standard
quantization, OS+ can achieve near-floating-point performance on both small
models and large language models on 8-bit and 6-bit. Besides, we establish a
new state-of-the-art for 4-bit BERT with 15.5\% improvement. Our code is
available at \url{https://github.com/ModelTC/Outlier_Suppression_Plus}.
- Abstract(参考訳): トランスフォーマー言語モデルの学習後の量子化〜(PTQ)は、アクティベーションにおける有害な外れ値の存在によって大きな課題に直面している。
これらの異常値は特定のチャネルに集中しており、チャネル間で非対称である。
この問題に対処するために、非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+~(OS+)フレームワークを提案する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
第2に,効率的なシフトとスケーリング値を計算するための高速で安定なスキームを提案する。
チャネルワイズシフトは、各チャネルの中心を整列させ、外周非対称性を除去する。
チャネルワイズスケーリングは、マイグレーションと量子化による変化を定量的に評価し、量子化の負荷バランスを改善する。
BERT, OPT, BLOOM, BLOOMZ, LLaMAなどのモデルを用いて, 標準および微細な量子化設定下でOS+を検証する。
様々なタスクにわたる総合的な結果は、我々のアプローチの優位性を示している。
特に標準量子化では、os+は8ビットと6ビットの小さなモデルと大きな言語モデルの両方で浮動小数点性能を達成できる。
さらに,4ビットBERTを15.5%改善した新たな最先端技術を確立する。
私たちのコードは \url{https://github.com/ModelTC/Outlier_Suppression_Plus} で利用可能です。
関連論文リスト
- QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large
Language Models [47.16897385969097]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight
Quantization of Large Language Models [7.931296996957891]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
我々は、従来の出力チャネル(OC)ではなく、各入力チャネル(IC)内で量子化グループを生成する、単純で効果的な手法である、IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - LSQ+: Improving low-bit quantization through learnable offsets and
better initialization [43.59213570404785]
学習可能な量子化スキームは、アクティベーションの符号なし量子化を仮定し、全ての負のアクティベーションをゼロに量子化する。
我々はLSQ+を提案し、トレーニング可能なスケールとオフセットパラメータを持つ一般的な非対称量子化スキームを導入する。
LSQ+は、EfficientNetとMixNetの最先端の結果を示し、Swishアクティベーションを持つニューラルネットの低ビット量子化において、LSQを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-04-20T19:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。