Fugu-MT 論文翻訳(概要): GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy Efficient Inference

論文の概要: GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy Efficient Inference

arxiv url: http://arxiv.org/abs/2005.03842v2
Date: Sun, 27 Sep 2020 00:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 12:07:37.130294
Title: GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy Efficient Inference
Title（参考訳）: GOBO:低レイテンシ・エネルギー効率推論のための注意に基づくNLPモデルの定量化
Authors: Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos
Abstract要約: 本稿では,最先端BERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を圧縮するモデル量子化手法であるGOBOを提案する。他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。 GOBOアーキテクチャは計算時でも重量の大部分を3bで維持する。
参考スコア（独自算出の注目度）: 1.6534387701595552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention-based models have demonstrated remarkable success in various natural language understanding tasks. However, efficient execution remains a challenge for these models which are memory-bound due to their massive number of parameters. We present GOBO, a model quantization technique that compresses the vast majority (typically 99.9%) of the 32-bit floating-point parameters of state-of-the-art BERT models and their variants to 3 bits while maintaining their accuracy. Unlike other quantization methods, GOBO does not require fine-tuning nor retraining to compensate for the quantization error. We present two practical hardware applications of GOBO. In the first GOBO reduces memory storage and traffic and as a result inference latency and energy consumption. This GOBO memory compression mechanism is plug-in compatible with many architectures; we demonstrate it with the TPU, Eyeriss, and an architecture using Tensor Cores-like units. Second, we present a co-designed hardware architecture that also reduces computation. Uniquely, the GOBO architecture maintains most of the weights in 3b even during computation, a property that: (1) makes the processing elements area efficient, allowing us to pack more compute power per unit area, (2) replaces most multiply-accumulations with additions, and (3) reduces the off-chip traffic by amplifying on-chip memory capacity.
Abstract（参考訳）: 注意に基づくモデルは、様々な自然言語理解タスクで顕著な成功を示している。しかし、効率的な実行は、膨大な数のパラメータのためにメモリバウンドであるこれらのモデルにとって依然として課題である。 GOBOは,最先端のBERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を,精度を維持しながら3ビットに圧縮するモデル量子化手法である。他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。我々は,goboの実用的ハードウェア応用を2つ紹介する。最初のgoboでは、メモリストレージとトラフィックを削減し、結果として遅延とエネルギー消費を推論する。このGOBOメモリ圧縮機構は多くのアーキテクチャとプラグイン互換であり、TPU、Eyeris、Tensor Coresライクなユニットを使ったアーキテクチャでそれを実証する。次に,計算量を削減するハードウェアアーキテクチャを提案する。 GOBOアーキテクチャは計算時でも3bの重みのほとんどを維持でき、(1)処理要素を面積効率よくし、単位面積当たりの計算パワーを増やせるようにし、(2)ほとんどの乗算累積を加算で置き換え、(3)オンチップメモリ容量を増幅することでオフチップトラフィックを減らすという特性を持つ。

関連論文リスト

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment [5.141876811512978]
SmallThinkerは、ローカルデバイス向けに設計された大型言語モデル(LLM)のファミリーである。本研究では,微細なMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2レベルスパース構造を提案する。我々はSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースした。
論文参考訳（メタデータ） (2025-07-28T16:45:14Z)
CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。 InternVLモデルのスループットは10倍に向上する。
論文参考訳（メタデータ） (2025-02-15T05:08:01Z)
Neuromorphic Principles for Efficient Large Language Models on Intel Loihi 2 [5.213433310722838]
大きな言語モデル(LLM)は優れたパフォーマンスを提供するが、大量のエネルギーを必要とする。 We present a MatMul-free LLM architecture with Intel's neuromorphic processor, Loihi 2。当社のアプローチでは,ローヒ2の低精度,イベント駆動型計算,ステートフル処理のサポートを活用している。
論文参考訳（メタデータ） (2025-02-12T02:40:44Z)
Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文参考訳（メタデータ） (2024-09-18T11:57:05Z)
Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。 C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文参考訳（メタデータ） (2024-09-16T17:54:51Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
A Co-design view of Compute in-Memory with Non-Volatile Elements for Neural Networks [12.042322495445196]
次世代のコンピューティングハードウェアにおいて,コンピュート・イン・メモリがいかに重要な役割を果たすかを論じる。非揮発性メモリベースのクロスバーアーキテクチャは、アナログプロセスを使用して行列ベクトル乗算演算を並列化するエンジンの心臓を形成する。クロスバーアーキテクチャは、時にはニューロモルフィックアプローチと呼ばれ、将来のコンピュータにおいて重要なハードウェア要素となる。
論文参考訳（メタデータ） (2022-06-03T15:59:46Z)
PoET-BiN: Power Efficient Tiny Binary Neurons [1.7274221736253095]
本稿では,リソース制約の組込みデバイス上でのルックアップテーブルに基づく効率的な実装であるPoET-BiNを提案する。修正された決定木アプローチは、バイナリドメインで提案された実装のバックボーンを形成する。 LUTアクセスは、それを置き換えるMultiply Accumulate操作よりもはるかに少ない電力を消費し、修正されたDecision Treeアルゴリズムはメモリアクセスの必要性を排除する。
論文参考訳（メタデータ） (2020-02-23T00:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。