論文の概要: Mokey: Enabling Narrow Fixed-Point Inference for Out-of-the-Box
Floating-Point Transformer Models
- arxiv url: http://arxiv.org/abs/2203.12758v1
- Date: Wed, 23 Mar 2022 23:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 15:28:45.056229
- Title: Mokey: Enabling Narrow Fixed-Point Inference for Out-of-the-Box
Floating-Point Transformer Models
- Title(参考訳): Mokey: アウトオブボックス浮動小数点変圧器モデルの狭小点推定
- Authors: Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Andreas Moshovos
- Abstract要約: Mokeyは、すべての値を4ビットインデックスに量子化することで、最先端のTransformerモデルのフットプリントを削減する。
Mokeyは微調整を必要としないため、トレーニングリソースやデータセットがあまり利用できないことが多いため、重要な機能である。
- 参考スコア(独自算出の注目度): 1.257338251204905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasingly larger and better Transformer models keep advancing
state-of-the-art accuracy and capability for Natural Language Processing
applications. These models demand more computational power, storage, and
energy. Mokey reduces the footprint of state-of-the-art 32-bit or 16-bit
floating-point transformer models by quantizing all values to 4-bit indexes
into dictionaries of representative 16-bit fixed-point centroids. Mokey does
not need fine-tuning, an essential feature as often the training resources or
datasets are not available to many. Exploiting the range of values that
naturally occur in transformer models, Mokey selects centroid values to also
fit an exponential curve. This unique feature enables Mokey to replace the bulk
of the original multiply-accumulate operations with narrow 3b fixed-point
additions resulting in an area- and energy-efficient hardware accelerator
design. Over a set of state-of-the-art transformer models, the Mokey
accelerator delivers an order of magnitude improvements in energy efficiency
over a Tensor Cores-based accelerator while improving performance by at least
$4\times$ and as much as $15\times$ depending on the model and on-chip
buffering capacity. Optionally, Mokey can be used as a memory compression
assist for any other accelerator, transparently stashing wide floating-point or
fixed-point activations or weights into narrow 4-bit indexes. Mokey proves
superior to prior state-of-the-art quantization methods for Transformers.
- Abstract(参考訳): より大きく改良されたTransformerモデルは、自然言語処理アプリケーションの最先端の精度と能力を維持している。
これらのモデルはより計算力、記憶力、エネルギーを必要とする。
Mokeyは、すべての値を4ビットインデックスに量子化して、最先端の32ビットまたは16ビット浮動小数点変換器モデルのフットプリントを16ビットの定点セントロイドの辞書に還元する。
Mokeyは微調整を必要としないため、トレーニングリソースやデータセットがあまり利用できないことが多いため、重要な機能である。
トランスモデルで自然に発生する値の範囲を広げ、モキーは指数曲線にも適合するセントロイド値を選択する。
このユニークな特徴は、Mokeyが元の乗算累積演算の大部分を3bの狭い固定点加算に置き換えることを可能にし、面積とエネルギー効率のハードウェアアクセラレーターの設計をもたらす。
最先端のトランスフォーマーモデルに対して、mokeyアクセラレータはtensor coresベースのアクセラレータよりもエネルギー効率を桁違いに改善するとともに、モデルとオンチップバッファ容量に応じて最低$4\times$と$15\times$というパフォーマンス向上を実現している。
オプションとして、Mokeyは他のアクセラレーターのメモリ圧縮アシストとして使用することができ、広い浮動小数点や固定点のアクティベーションや重みを4ビットの狭いインデックスに透過的に固定することができる。
Mokeyは、トランスフォーマーの最先端量子化手法よりも優れている。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention [39.09650673080772]
SwitchHeadはアテンション層に有効なMoE手法である。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは44%の計算量と27%のメモリ使用量で標準モデルの難易度と一致している。
論文 参考訳(メタデータ) (2023-12-13T09:00:21Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Integer Fine-tuning of Transformer-based Models [13.383066080742699]
変圧器モデルにおける整数微調整において必要最小ビット幅を求めるために, 様々な整数ビット幅が与える影響について検討する。
16ビットの整数モデルが浮動小数点のベースライン性能と一致することを示す。
さらにビット幅を8に下げると、平均スコアは1.7ポイント低下する。
論文 参考訳(メタデータ) (2022-09-20T16:02:28Z) - ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。
ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文 参考訳(メタデータ) (2022-06-04T00:28:21Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。