論文の概要: GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy
Efficient Inference
- arxiv url: http://arxiv.org/abs/2005.03842v2
- Date: Sun, 27 Sep 2020 00:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:07:37.130294
- Title: GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy
Efficient Inference
- Title(参考訳): GOBO:低レイテンシ・エネルギー効率推論のための注意に基づくNLPモデルの定量化
- Authors: Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos
- Abstract要約: 本稿では,最先端BERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を圧縮するモデル量子化手法であるGOBOを提案する。
他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。
GOBOアーキテクチャは計算時でも重量の大部分を3bで維持する。
- 参考スコア(独自算出の注目度): 1.6534387701595552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based models have demonstrated remarkable success in various
natural language understanding tasks. However, efficient execution remains a
challenge for these models which are memory-bound due to their massive number
of parameters. We present GOBO, a model quantization technique that compresses
the vast majority (typically 99.9%) of the 32-bit floating-point parameters of
state-of-the-art BERT models and their variants to 3 bits while maintaining
their accuracy. Unlike other quantization methods, GOBO does not require
fine-tuning nor retraining to compensate for the quantization error. We present
two practical hardware applications of GOBO. In the first GOBO reduces memory
storage and traffic and as a result inference latency and energy consumption.
This GOBO memory compression mechanism is plug-in compatible with many
architectures; we demonstrate it with the TPU, Eyeriss, and an architecture
using Tensor Cores-like units. Second, we present a co-designed hardware
architecture that also reduces computation. Uniquely, the GOBO architecture
maintains most of the weights in 3b even during computation, a property that:
(1) makes the processing elements area efficient, allowing us to pack more
compute power per unit area, (2) replaces most multiply-accumulations with
additions, and (3) reduces the off-chip traffic by amplifying on-chip memory
capacity.
- Abstract(参考訳): 注意に基づくモデルは、様々な自然言語理解タスクで顕著な成功を示している。
しかし、効率的な実行は、膨大な数のパラメータのためにメモリバウンドであるこれらのモデルにとって依然として課題である。
GOBOは,最先端のBERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を,精度を維持しながら3ビットに圧縮するモデル量子化手法である。
他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。
我々は,goboの実用的ハードウェア応用を2つ紹介する。
最初のgoboでは、メモリストレージとトラフィックを削減し、結果として遅延とエネルギー消費を推論する。
このGOBOメモリ圧縮機構は多くのアーキテクチャとプラグイン互換であり、TPU、Eyeris、Tensor Coresライクなユニットを使ったアーキテクチャでそれを実証する。
次に,計算量を削減するハードウェアアーキテクチャを提案する。
GOBOアーキテクチャは計算時でも3bの重みのほとんどを維持でき、(1)処理要素を面積効率よくし、単位面積当たりの計算パワーを増やせるようにし、(2)ほとんどの乗算累積を加算で置き換え、(3)オンチップメモリ容量を増幅することでオフチップトラフィックを減らすという特性を持つ。
関連論文リスト
- Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。
最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。
このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文 参考訳(メタデータ) (2024-09-18T11:57:05Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - A Co-design view of Compute in-Memory with Non-Volatile Elements for
Neural Networks [12.042322495445196]
次世代のコンピューティングハードウェアにおいて,コンピュート・イン・メモリがいかに重要な役割を果たすかを論じる。
非揮発性メモリベースのクロスバーアーキテクチャは、アナログプロセスを使用して行列ベクトル乗算演算を並列化するエンジンの心臓を形成する。
クロスバーアーキテクチャは、時にはニューロモルフィックアプローチと呼ばれ、将来のコンピュータにおいて重要なハードウェア要素となる。
論文 参考訳(メタデータ) (2022-06-03T15:59:46Z) - PoET-BiN: Power Efficient Tiny Binary Neurons [1.7274221736253095]
本稿では,リソース制約の組込みデバイス上でのルックアップテーブルに基づく効率的な実装であるPoET-BiNを提案する。
修正された決定木アプローチは、バイナリドメインで提案された実装のバックボーンを形成する。
LUTアクセスは、それを置き換えるMultiply Accumulate操作よりもはるかに少ない電力を消費し、修正されたDecision Treeアルゴリズムはメモリアクセスの必要性を排除する。
論文 参考訳(メタデータ) (2020-02-23T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。