論文の概要: BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based
Quantized DNNs
- arxiv url: http://arxiv.org/abs/2005.09904v2
- Date: Mon, 31 Aug 2020 05:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 04:46:08.871523
- Title: BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based
Quantized DNNs
- Title(参考訳): BiQGEMM: バイナリ符号化に基づく量子DNNのためのルックアップテーブルによる行列乗算
- Authors: Yongkweon Jeon, Baeseong Park, Se Jung Kwon, Byeongwook Kim, Jeongin
Yun, and Dongsoo Lee
- Abstract要約: ディープニューラルネットワーク(DNN)におけるパラメータの数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。
本稿では,量子化 DNN 専用の行列乗法 BiQGEMM を提案する。
- 参考スコア(独自算出の注目度): 7.635154697466773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of parameters in deep neural networks (DNNs) is rapidly increasing
to support complicated tasks and to improve model accuracy. Correspondingly,
the amount of computations and required memory footprint increase as well.
Quantization is an efficient method to address such concerns by compressing
DNNs such that computations can be simplified while required storage footprint
is significantly reduced. Unfortunately, commercial CPUs and GPUs do not fully
support quantization because only fixed data transfers (such as 32 bits) are
allowed. As a result, even if weights are quantized into a few bits, CPUs and
GPUs cannot access multiple quantized weights without memory bandwidth waste.
Success of quantization in practice, hence, relies on an efficient computation
engine design, especially for matrix multiplication that is a basic computation
engine in most DNNs. In this paper, we propose a novel matrix multiplication
method, called BiQGEMM, dedicated to quantized DNNs. BiQGEMM can access
multiple quantized weights simultaneously in one instruction. In addition,
BiQGEMM pre-computes intermediate results that are highly redundant when
quantization leads to limited available computation space. Since pre-computed
values are stored in lookup tables and reused, BiQGEMM achieves lower amount of
overall computations. Our extensive experimental results show that BiQGEMM
presents higher performance than conventional schemes when DNNs are quantized.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のパラメータ数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。
それに対応して、計算量と必要なメモリフットプリントも増加する。
量子化は、DNNを圧縮することで、必要なストレージフットプリントが大幅に削減される間に計算を単純化する効率的な方法である。
残念なことに、商用CPUとGPUは、固定データ転送(32ビットなど)のみを許可するため、量子化を完全にサポートしていない。
その結果、重みが数ビットに量子化されても、CPUとGPUはメモリ帯域を浪費することなく複数の量子化重みにアクセスできる。
したがって、量子化の成功は効率的な計算エンジンの設計、特にほとんどのdnnの基本的な計算エンジンである行列の乗算に依存している。
本稿では,量子化DNNに特化した行列乗法であるBiQGEMMを提案する。
BiQGEMMは1つの命令で同時に複数の量子化重みにアクセスできる。
さらに、BiQGEMMは、量子化が限られた計算空間につながる場合に非常に冗長な中間結果を事前計算する。
事前計算された値はルックアップテーブルに格納され再利用されるので、BiQGEMMは全体の計算量を減らすことができる。
DNNが量子化される場合の従来の手法よりも,BiQGEMMの方が高い性能を示すことを示す。
関連論文リスト
- Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-16T23:38:35Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Fast matrix multiplication for binary and ternary CNNs on ARM CPU [0.9135092203041721]
ARMアーキテクチャを持つモバイルデバイスに対して, 3次, 3次, 2次行列乗算の高速アルゴリズムを提案する。
我々のアルゴリズムは、TNN、TBN、BNNの畳み込み層と完全に接続された層を推論するために利用できる。
ARM Cortex-A73 CPU上で実験的に評価し,その推論速度を実精度,8ビット,4ビットの量子化行列乗算の効率的な実装と比較した。
論文 参考訳(メタデータ) (2022-05-18T14:52:34Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - CREW: Computation Reuse and Efficient Weight Storage for
Hardware-accelerated MLPs and RNNs [1.0635248457021496]
本稿では,ReuseとEfficient Weight Storage機構を実装したハードウェアアクセラレータCREWを紹介する。
CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。
CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。
論文 参考訳(メタデータ) (2021-07-20T11:10:54Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。