論文の概要: Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models
- arxiv url: http://arxiv.org/abs/2209.13325v1
- Date: Tue, 27 Sep 2022 12:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:59:49.272750
- Title: Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models
- Title(参考訳): outlier reduction: 低ビットトランスフォーマー言語モデルの限界を押し上げる
- Authors: Xiuying Wei, Yunchen Zhang, Xiangguo Zhang, Ruihao Gong, Shanghang
Zhang, Qi Zhang, Fengwei Yu, Xianglong Liu
- Abstract要約: 最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
- 参考スコア(独自算出の注目度): 57.933500846742234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architecture has become the fundamental element of the widespread
natural language processing~(NLP) models. With the trends of large NLP models,
the increasing memory and computation costs hinder their efficient deployment
on resource-limited devices. Therefore, transformer quantization attracts wide
research interest. Recent work recognizes that structured outliers are the
critical bottleneck for quantization performance. However, their proposed
methods increase the computation overhead and still leave the outliers there.
To fundamentally address this problem, this paper delves into the inherent
inducement and importance of the outliers. We discover that $\boldsymbol
\gamma$ in LayerNorm (LN) acts as a sinful amplifier for the outliers, and the
importance of outliers varies greatly where some outliers provided by a few
tokens cover a large area but can be clipped sharply without negative impacts.
Motivated by these findings, we propose an outlier suppression framework
including two components: Gamma Migration and Token-Wise Clipping. The Gamma
Migration migrates the outlier amplifier to subsequent modules in an equivalent
transformation, contributing to a more quantization-friendly model without any
extra burden. The Token-Wise Clipping takes advantage of the large variance of
token range and designs a token-wise coarse-to-fine pipeline, obtaining a
clipping range with minimal final quantization loss in an efficient way. This
framework effectively suppresses the outliers and can be used in a
plug-and-play mode. Extensive experiments prove that our framework surpasses
the existing works and, for the first time, pushes the 6-bit post-training BERT
quantization to the full-precision (FP) level. Our code is available at
https://github.com/wimh966/outlier_suppression.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、広範囲にわたる自然言語処理(nlp)モデルの基本的な要素となっている。
大規模NLPモデルのトレンドにより、メモリと計算コストの増加は、リソース制限されたデバイスへの効率的なデプロイを妨げる。
そのため、変圧器の量子化は幅広い研究の関心を惹きつける。
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
しかし,提案手法は計算オーバーヘッドを増加させ,異常値も残している。
この問題を根本的に解決するために,本論文では,外乱の誘発と重要性について考察する。
layernorm (ln) における$\boldsymbol \gamma$ は、外れ値の罪悪増幅器として作用し、外れ値の重要性は、いくつかのトークンによって提供される外れ値が広い範囲をカバーするが、負の影響なしに鋭く切断される場合に大きく異なる。
これらの知見に触発されて,ガンママイグレーションとトケンワイズクリッピングという2つのコンポーネントを含む外部抑制フレームワークを提案する。
ガンママイグレーションは、外部増幅器を等価な変換で後続のモジュールに移行し、余分な負担なしにより量子化しやすいモデルに寄与する。
Token-Wise Clippingはトークン範囲の大きな分散を利用してトークン単位の粗いパイプラインを設計し、最小限の最終量子化損失のクリッピング範囲を効率的に得る。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
大規模な実験により、我々のフレームワークが既存の作業を超えることが証明され、初めて6ビット後のBERT量子化をフル精度(FP)レベルに押し上げる。
私たちのコードはhttps://github.com/wimh966/outlier_suppressionで利用可能です。
関連論文リスト
- Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight
Quantization of Large Language Models [7.931296996957891]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
我々は、従来の出力チャネル(OC)ではなく、各入力チャネル(IC)内で量子化グループを生成する、単純で効果的な手法である、IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Outlier Suppression+: Accurate quantization of large language models by
equivalent and optimal shifting and scaling [44.60348333479704]
トランスフォーマー言語モデルの学習後の量子化は、アクティベーションにおける有害なアウトレイアの存在による課題に直面している。
本研究では,非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+(OS+)フレームワークを提案する。
等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
論文 参考訳(メタデータ) (2023-04-18T17:34:23Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Truncated phase-based quantum arithmetic: error propagation and resource
reduction [0.0]
我々はドレイパー量子フーリエ加算器を改良し、小角回転を高粗いレベルに除去する。
継承された忠実さの損失は、サブルーチン内の搬送ビットと借入ビットの比率によって直接与えられることを示す。
意外なことに、707ドルの量子フーリエ変換はそれぞれ$pi/64$に切り詰められ、加法回転はわずかに微妙にしか残っていない。
論文 参考訳(メタデータ) (2021-10-01T05:19:03Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。