論文の概要: GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy
Efficient Inference
- arxiv url: http://arxiv.org/abs/2005.03842v2
- Date: Sun, 27 Sep 2020 00:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:07:37.130294
- Title: GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy
Efficient Inference
- Title(参考訳): GOBO:低レイテンシ・エネルギー効率推論のための注意に基づくNLPモデルの定量化
- Authors: Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos
- Abstract要約: 本稿では,最先端BERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を圧縮するモデル量子化手法であるGOBOを提案する。
他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。
GOBOアーキテクチャは計算時でも重量の大部分を3bで維持する。
- 参考スコア(独自算出の注目度): 1.6534387701595552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based models have demonstrated remarkable success in various
natural language understanding tasks. However, efficient execution remains a
challenge for these models which are memory-bound due to their massive number
of parameters. We present GOBO, a model quantization technique that compresses
the vast majority (typically 99.9%) of the 32-bit floating-point parameters of
state-of-the-art BERT models and their variants to 3 bits while maintaining
their accuracy. Unlike other quantization methods, GOBO does not require
fine-tuning nor retraining to compensate for the quantization error. We present
two practical hardware applications of GOBO. In the first GOBO reduces memory
storage and traffic and as a result inference latency and energy consumption.
This GOBO memory compression mechanism is plug-in compatible with many
architectures; we demonstrate it with the TPU, Eyeriss, and an architecture
using Tensor Cores-like units. Second, we present a co-designed hardware
architecture that also reduces computation. Uniquely, the GOBO architecture
maintains most of the weights in 3b even during computation, a property that:
(1) makes the processing elements area efficient, allowing us to pack more
compute power per unit area, (2) replaces most multiply-accumulations with
additions, and (3) reduces the off-chip traffic by amplifying on-chip memory
capacity.
- Abstract(参考訳): 注意に基づくモデルは、様々な自然言語理解タスクで顕著な成功を示している。
しかし、効率的な実行は、膨大な数のパラメータのためにメモリバウンドであるこれらのモデルにとって依然として課題である。
GOBOは,最先端のBERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を,精度を維持しながら3ビットに圧縮するモデル量子化手法である。
他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。
我々は,goboの実用的ハードウェア応用を2つ紹介する。
最初のgoboでは、メモリストレージとトラフィックを削減し、結果として遅延とエネルギー消費を推論する。
このGOBOメモリ圧縮機構は多くのアーキテクチャとプラグイン互換であり、TPU、Eyeris、Tensor Coresライクなユニットを使ったアーキテクチャでそれを実証する。
次に,計算量を削減するハードウェアアーキテクチャを提案する。
GOBOアーキテクチャは計算時でも3bの重みのほとんどを維持でき、(1)処理要素を面積効率よくし、単位面積当たりの計算パワーを増やせるようにし、(2)ほとんどの乗算累積を加算で置き換え、(3)オンチップメモリ容量を増幅することでオフチップトラフィックを減らすという特性を持つ。
関連論文リスト
- FrameQuant: Flexible Low-Bit Quantization for Transformers [27.93241211038938]
ポストトライニング量子化は、事前トレーニングされたモデルを変更し、それを8ビット以下に量子化する。
変換器モデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-03-10T04:01:49Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - A Co-design view of Compute in-Memory with Non-Volatile Elements for
Neural Networks [12.042322495445196]
次世代のコンピューティングハードウェアにおいて,コンピュート・イン・メモリがいかに重要な役割を果たすかを論じる。
非揮発性メモリベースのクロスバーアーキテクチャは、アナログプロセスを使用して行列ベクトル乗算演算を並列化するエンジンの心臓を形成する。
クロスバーアーキテクチャは、時にはニューロモルフィックアプローチと呼ばれ、将来のコンピュータにおいて重要なハードウェア要素となる。
論文 参考訳(メタデータ) (2022-06-03T15:59:46Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - PoET-BiN: Power Efficient Tiny Binary Neurons [1.7274221736253095]
本稿では,リソース制約の組込みデバイス上でのルックアップテーブルに基づく効率的な実装であるPoET-BiNを提案する。
修正された決定木アプローチは、バイナリドメインで提案された実装のバックボーンを形成する。
LUTアクセスは、それを置き換えるMultiply Accumulate操作よりもはるかに少ない電力を消費し、修正されたDecision Treeアルゴリズムはメモリアクセスの必要性を排除する。
論文 参考訳(メタデータ) (2020-02-23T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。