論文の概要: Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models
- arxiv url: http://arxiv.org/abs/2209.13325v1
- Date: Tue, 27 Sep 2022 12:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:59:49.272750
- Title: Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models
- Title(参考訳): outlier reduction: 低ビットトランスフォーマー言語モデルの限界を押し上げる
- Authors: Xiuying Wei, Yunchen Zhang, Xiangguo Zhang, Ruihao Gong, Shanghang
Zhang, Qi Zhang, Fengwei Yu, Xianglong Liu
- Abstract要約: 最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
- 参考スコア(独自算出の注目度): 57.933500846742234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architecture has become the fundamental element of the widespread
natural language processing~(NLP) models. With the trends of large NLP models,
the increasing memory and computation costs hinder their efficient deployment
on resource-limited devices. Therefore, transformer quantization attracts wide
research interest. Recent work recognizes that structured outliers are the
critical bottleneck for quantization performance. However, their proposed
methods increase the computation overhead and still leave the outliers there.
To fundamentally address this problem, this paper delves into the inherent
inducement and importance of the outliers. We discover that $\boldsymbol
\gamma$ in LayerNorm (LN) acts as a sinful amplifier for the outliers, and the
importance of outliers varies greatly where some outliers provided by a few
tokens cover a large area but can be clipped sharply without negative impacts.
Motivated by these findings, we propose an outlier suppression framework
including two components: Gamma Migration and Token-Wise Clipping. The Gamma
Migration migrates the outlier amplifier to subsequent modules in an equivalent
transformation, contributing to a more quantization-friendly model without any
extra burden. The Token-Wise Clipping takes advantage of the large variance of
token range and designs a token-wise coarse-to-fine pipeline, obtaining a
clipping range with minimal final quantization loss in an efficient way. This
framework effectively suppresses the outliers and can be used in a
plug-and-play mode. Extensive experiments prove that our framework surpasses
the existing works and, for the first time, pushes the 6-bit post-training BERT
quantization to the full-precision (FP) level. Our code is available at
https://github.com/wimh966/outlier_suppression.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、広範囲にわたる自然言語処理(nlp)モデルの基本的な要素となっている。
大規模NLPモデルのトレンドにより、メモリと計算コストの増加は、リソース制限されたデバイスへの効率的なデプロイを妨げる。
そのため、変圧器の量子化は幅広い研究の関心を惹きつける。
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
しかし,提案手法は計算オーバーヘッドを増加させ,異常値も残している。
この問題を根本的に解決するために,本論文では,外乱の誘発と重要性について考察する。
layernorm (ln) における$\boldsymbol \gamma$ は、外れ値の罪悪増幅器として作用し、外れ値の重要性は、いくつかのトークンによって提供される外れ値が広い範囲をカバーするが、負の影響なしに鋭く切断される場合に大きく異なる。
これらの知見に触発されて,ガンママイグレーションとトケンワイズクリッピングという2つのコンポーネントを含む外部抑制フレームワークを提案する。
ガンママイグレーションは、外部増幅器を等価な変換で後続のモジュールに移行し、余分な負担なしにより量子化しやすいモデルに寄与する。
Token-Wise Clippingはトークン範囲の大きな分散を利用してトークン単位の粗いパイプラインを設計し、最小限の最終量子化損失のクリッピング範囲を効率的に得る。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
大規模な実験により、我々のフレームワークが既存の作業を超えることが証明され、初めて6ビット後のBERT量子化をフル精度(FP)レベルに押し上げる。
私たちのコードはhttps://github.com/wimh966/outlier_suppressionで利用可能です。
関連論文リスト
- DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs [40.48697728884967]
大規模言語モデル(LLM)の量子化は、特に外部アクティベーションの存在により、大きな課題に直面している。
伝統的なアプローチは、比較的大きな大きさの全てのトークンをまたいだ活性化であるノーマル・アウトリエに主に対応している。
DuQuantは回転変換と置換変換を利用して、大量および正常な外れ値の両方をより効果的に緩和する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-03T18:27:44Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling [44.60348333479704]
トランスフォーマー言語モデルの学習後の量子化は、アクティベーションにおける有害なアウトレイアの存在による課題に直面している。
本研究では,非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+(OS+)フレームワークを提案する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
論文 参考訳(メタデータ) (2023-04-18T17:34:23Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。