論文の概要: DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables
- arxiv url: http://arxiv.org/abs/2304.09049v1
- Date: Tue, 18 Apr 2023 15:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:22:46.612723
- Title: DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables
- Title(参考訳): DeepGEMM:ルックアップテーブルを用いたCPUアーキテクチャの超高精度推論
- Authors: Darshan C. Ganji, Saad Ashfaq, Ehsan Saboori, Sudhakar Sah, Saptarshi
Mitra, MohammadHossein AskariHemmat, Alexander Hoffman, Ahmed Hassanien,
Mathieu L\'eonardon
- Abstract要約: DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
- 参考スコア(独自算出の注目度): 49.965024476651706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lot of recent progress has been made in ultra low-bit quantization,
promising significant improvements in latency, memory footprint and energy
consumption on edge devices. Quantization methods such as Learned Step Size
Quantization can achieve model accuracy that is comparable to full-precision
floating-point baselines even with sub-byte quantization. However, it is
extremely challenging to deploy these ultra low-bit quantized models on
mainstream CPU devices because commodity SIMD (Single Instruction, Multiple
Data) hardware typically supports no less than 8-bit precision. To overcome
this limitation, we propose DeepGEMM, a lookup table based approach for the
execution of ultra low-precision convolutional neural networks on SIMD
hardware. The proposed method precomputes all possible products of weights and
activations, stores them in a lookup table, and efficiently accesses them at
inference time to avoid costly multiply-accumulate operations. Our 2-bit
implementation outperforms corresponding 8-bit integer kernels in the QNNPACK
framework by up to 1.74x on x86 platforms.
- Abstract(参考訳): 極低ビット量子化における最近の多くの進歩は、エッジデバイスにおけるレイテンシ、メモリフットプリント、エネルギー消費を大幅に改善することを約束している。
Learned Step Size Quantizationのような量子化手法は、サブバイトの量子化であっても、完全精度の浮動小数点ベースラインに匹敵するモデル精度を達成することができる。
しかし、コモディティsimd(single instruction, multiple data)ハードウェアは通常8ビットの精度しか持たないため、これらの超低ビット量子化モデルをメインストリームcpuデバイスに展開することは極めて困難である。
この制限を克服するために、SIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチであるDeepGEMMを提案する。
提案手法は,ウェイトとアクティベーションの可能なすべての製品をプリ計算し,それらをルックアップテーブルに格納し,推論時に効率的にアクセスすることで,コストのかかる乗算演算を回避する。
我々の2ビット実装は、x86プラットフォーム上で最大1.74倍のqnnpackフレームワークで対応する8ビット整数カーネルを上回る。
関連論文リスト
- ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based
Quantized DNNs [7.635154697466773]
ディープニューラルネットワーク(DNN)におけるパラメータの数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。
本稿では,量子化 DNN 専用の行列乗法 BiQGEMM を提案する。
論文 参考訳(メタデータ) (2020-05-20T08:15:33Z) - Quantization of Deep Neural Networks for Accumulator-constrained
Processors [2.8489574654566674]
本稿では,大規模な蓄積レジスタを持たないプラットフォームに対して,ニューラルネットワーク(ANN)量子化手法を提案する。
量子化問題をアキュムレータサイズの関数として定式化し、入力データと重みのビット幅を最大化することでモデルの精度を最大化する。
我々は,CIFAR-10およびILSVRC2012画像分類ベンチマークにおいて,浮動小数点ベースラインの1%以内の分類精度が得られることを示した。
論文 参考訳(メタデータ) (2020-04-24T14:47:14Z) - Quantized Neural Network Inference with Precision Batching [4.519884877213097]
精度はニューラルネットワークを個々のビット層に分解し、高速な1ビット演算を用いて蓄積する。
精度は、全精度ベースラインの1%エラーマージン内において、GPU上のエンドツーエンドの8倍の精度が得られる。
さまざまなアプリケーションにおいて、Precisionは、完全な精度ベースラインの1%エラーマージン内において、GPU上のエンド・ツー・エンドの8倍の値を得る。
論文 参考訳(メタデータ) (2020-02-26T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。