Fugu-MT 論文翻訳(概要): Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models

論文の概要: Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models

arxiv url: http://arxiv.org/abs/2209.13325v1
Date: Tue, 27 Sep 2022 12:05:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 15:59:49.272750
Title: Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models
Title（参考訳）: outlier reduction: 低ビットトランスフォーマー言語モデルの限界を押し上げる
Authors: Xiuying Wei, Yunchen Zhang, Xiangguo Zhang, Ruihao Gong, Shanghang Zhang, Qi Zhang, Fengwei Yu, Xianglong Liu
Abstract要約: 最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
参考スコア（独自算出の注目度）: 57.933500846742234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer architecture has become the fundamental element of the widespread natural language processing~(NLP) models. With the trends of large NLP models, the increasing memory and computation costs hinder their efficient deployment on resource-limited devices. Therefore, transformer quantization attracts wide research interest. Recent work recognizes that structured outliers are the critical bottleneck for quantization performance. However, their proposed methods increase the computation overhead and still leave the outliers there. To fundamentally address this problem, this paper delves into the inherent inducement and importance of the outliers. We discover that $\boldsymbol \gamma$ in LayerNorm (LN) acts as a sinful amplifier for the outliers, and the importance of outliers varies greatly where some outliers provided by a few tokens cover a large area but can be clipped sharply without negative impacts. Motivated by these findings, we propose an outlier suppression framework including two components: Gamma Migration and Token-Wise Clipping. The Gamma Migration migrates the outlier amplifier to subsequent modules in an equivalent transformation, contributing to a more quantization-friendly model without any extra burden. The Token-Wise Clipping takes advantage of the large variance of token range and designs a token-wise coarse-to-fine pipeline, obtaining a clipping range with minimal final quantization loss in an efficient way. This framework effectively suppresses the outliers and can be used in a plug-and-play mode. Extensive experiments prove that our framework surpasses the existing works and, for the first time, pushes the 6-bit post-training BERT quantization to the full-precision (FP) level. Our code is available at https://github.com/wimh966/outlier_suppression.
Abstract（参考訳）: トランスフォーマーアーキテクチャは、広範囲にわたる自然言語処理(nlp)モデルの基本的な要素となっている。大規模NLPモデルのトレンドにより、メモリと計算コストの増加は、リソース制限されたデバイスへの効率的なデプロイを妨げる。そのため、変圧器の量子化は幅広い研究の関心を惹きつける。最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。しかし,提案手法は計算オーバーヘッドを増加させ,異常値も残している。この問題を根本的に解決するために,本論文では,外乱の誘発と重要性について考察する。 layernorm (ln) における$\boldsymbol \gamma$ は、外れ値の罪悪増幅器として作用し、外れ値の重要性は、いくつかのトークンによって提供される外れ値が広い範囲をカバーするが、負の影響なしに鋭く切断される場合に大きく異なる。これらの知見に触発されて,ガンママイグレーションとトケンワイズクリッピングという2つのコンポーネントを含む外部抑制フレームワークを提案する。ガンママイグレーションは、外部増幅器を等価な変換で後続のモジュールに移行し、余分な負担なしにより量子化しやすいモデルに寄与する。 Token-Wise Clippingはトークン範囲の大きな分散を利用してトークン単位の粗いパイプラインを設計し、最小限の最終量子化損失のクリッピング範囲を効率的に得る。このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。大規模な実験により、我々のフレームワークが既存の作業を超えることが証明され、初めて6ビット後のBERT量子化をフル精度(FP)レベルに押し上げる。私たちのコードはhttps://github.com/wimh966/outlier_suppressionで利用可能です。

関連論文リスト

Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs [40.48697728884967]
大規模言語モデル(LLM)の量子化は、特に外部アクティベーションの存在により、大きな課題に直面している。伝統的なアプローチは、比較的大きな大きさの全てのトークンをまたいだ活性化であるノーマル・アウトリエに主に対応している。 DuQuantは回転変換と置換変換を利用して、大量および正常な外れ値の両方をより効果的に緩和する新しいアプローチである。
論文参考訳（メタデータ） (2024-06-03T18:27:44Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文参考訳（メタデータ） (2024-03-29T12:15:06Z)
Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文参考訳（メタデータ） (2023-12-02T04:29:19Z)
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文参考訳（メタデータ） (2023-09-27T09:48:31Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Outlier Suppression+: Accurate quantization of large language models by equivalent and optimal shifting and scaling [44.60348333479704]
トランスフォーマー言語モデルの学習後の量子化は、アクティベーションにおける有害なアウトレイアの存在による課題に直面している。本研究では,非対称性のチャネルワイドシフトと濃度のチャネルワイドスケーリングを含むOutlier Suppression+(OS+)フレームワークを提案する。等価性を保ちながら,これらの操作を後続モジュールにシームレスに移行可能であることを示す。
論文参考訳（メタデータ） (2023-04-18T17:34:23Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
Understanding and Overcoming the Challenges of Efficient Transformer Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文参考訳（メタデータ） (2021-09-27T10:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。