論文の概要: FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on
General Purpose CPUs
- arxiv url: http://arxiv.org/abs/2211.06982v1
- Date: Sun, 13 Nov 2022 18:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 21:34:12.980733
- Title: FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on
General Purpose CPUs
- Title(参考訳): FullPack: 汎用CPUにおけるサブバイト量子化推論のための完全ベクトル利用
- Authors: Hossein Katebi, Navidreza Asadi, Maziar Goudarzi
- Abstract要約: 記憶のためのメモリレイアウトと,サブバイト (4ビット, 2ビット, 1ビット) モデルを処理するための機構について述べる。
音声認識モデルであるMozilla DeepSpeechを適用することで、採用したビット幅に応じて、最先端の処理に比べてエンドツーエンドのスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although prior art has demonstrated negligible accuracy drop in sub-byte
quantization -- where weights and/or activations are represented by less than 8
bits -- popular SIMD instructions of CPUs do not natively support these
datatypes. While recent methods, such as ULPPACK, are already using sub-byte
quantization on general-purpose CPUs with vector units, they leave out several
empty bits between the sub-byte values in memory and in vector registers to
avoid overflow to the neighbours during the operations. This results in memory
footprint and bandwidth-usage inefficiencies and suboptimal performance. In
this paper, we present memory layouts for storing, and mechanisms for
processing sub-byte (4-, 2-, or 1-bit) models that utilize all the bits in the
memory as well as in the vector registers for the actual data. We provide
compute kernels for the proposed layout for the GEMV (GEneral Matrix-Vector
multiplication) operations between weights and activations of different
datatypes (e.g., 8-bit activations and 4-bit weights). For evaluation, we
extended the TFLite package and added our methods to it, then ran the models on
the cycle-accurate gem5 simulator to compare detailed memory and CPU cycles of
each method. We compare against nine other methods that are actively used in
production including GEMLOWP, Ruy, XNNPack, and ULPPACK. Furthermore, we
explore the effect of different input and output sizes of deep learning layers
on the performance of our proposed method. Experimental results show 0.96-2.1x
speedup for small sizes and 1.2-6.7x speedup for mid to large sizes. Applying
our proposal to a real-world speech recognition model, Mozilla DeepSpeech, we
proved that our method achieves 1.56-2.11x end-to-end speedup compared to the
state-of-the-art, depending on the bit-width employed.
- Abstract(参考訳): 従来の技術では、サブバイトの量子化 -- 重みやアクティベーションが8ビット未満で表現される -- は無視可能な精度低下を示しているが、CPUの一般的なSIMD命令はこれらのデータ型をネイティブにサポートしていない。
ULPPACKのような最近の手法では、ベクトル単位を持つ汎用CPUのサブバイト量子化が既に行われているが、操作中に近隣のCPUへのオーバーフローを避けるために、メモリとベクトルレジスタのサブバイト値の間に空のビットがいくつか残されている。
その結果、メモリフットプリントと帯域幅使用効率が低下し、性能が低下する。
本稿では,メモリ内のすべてのビットと実際のデータのベクトルレジスタを利用するサブバイト(4ビット,2ビット,または1ビット)モデルを格納するためのメモリレイアウトと機構について述べる。
GEMV(GEneral Matrix-Vector multiplication)演算の計算カーネルを,異なるデータ型(例えば,8ビットのアクティベーションと4ビットの重み)の重みとアクティベーションに割り当てる。
評価のために、TFLiteパッケージを拡張し、それに追加し、サイクル精度の gem5シミュレータ上でモデルを実行し、各メソッドの詳細なメモリとCPUサイクルを比較した。
GEMLOWP、Ruy、XNNPack、ULPPACKなど、プロダクションで積極的に使われている9つのメソッドを比較した。
さらに,提案手法の性能に及ぼす深層学習層の入力と出力の異なるサイズの影響について検討した。
実験の結果、小型では0.96-2.1x、中型から大型では1.2-6.7xのスピードアップが見られた。
本提案は,実世界の音声認識モデルであるmozilla deepspeechに適用し,ビット幅に応じて,最先端に比べて1.56-2.11倍のエンドツーエンド高速化を実現することを実証した。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - IMAC: In-memory multi-bit Multiplication andACcumulation in 6T SRAM
Array [5.29958909018578]
インメモリコンピューティングは、メモリアレイに計算のいくつかの側面を埋め込むことを目的としている。
6Tアレイ内で並列ドット生成を行うことができる新しいインメモリ乗算法を提案する。
提案システムはエネルギー消費の6.24倍、遅延の9.42倍である。
論文 参考訳(メタデータ) (2020-03-27T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。