論文の概要: MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks
- arxiv url: http://arxiv.org/abs/2305.09850v4
- Date: Tue, 7 Nov 2023 05:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:46:19.632387
- Title: MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks
- Title(参考訳): MINT:エネルギー効率の良いスパイクニューラルネットワークのための乗算器レスINTeger量子化
- Authors: Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda
- Abstract要約: スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
- 参考スコア(独自算出の注目度): 20.473852621915956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Multiplier-less INTeger (MINT) quantization, a uniform
quantization scheme that efficiently compresses weights and membrane potentials
in spiking neural networks (SNNs). Unlike previous SNN quantization methods,
MINT quantizes memory-intensive membrane potentials to an extremely low
precision (2-bit), significantly reducing the memory footprint. MINT also
shares the quantization scaling factor between weights and membrane potentials,
eliminating the need for multipliers required in conventional uniform
quantization. Experimental results show that our method matches the accuracy of
full-precision models and other state-of-the-art SNN quantization techniques
while surpassing them in memory footprint reduction and hardware cost
efficiency at deployment. For example, 2-bit MINT VGG-16 achieves 90.6%
accuracy on CIFAR-10, with roughly 93.8% reduction in memory footprint from the
full-precision model and 90% reduction in computation energy compared to
vanilla uniform quantization at deployment. The code is available at
https://github.com/Intelligent-Computing-Lab-Yale/MINT-Quantization.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法であるMINT(Multiplier-less INTeger)量子化を提案する。
従来のSNN量子化法とは異なり、MINTはメモリ集約膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
MINTはまた、重量と膜電位の間の量子化スケーリング係数を共有し、従来の均一な量子化に必要な乗算器の必要性を排除している。
実験結果から,本手法は,メモリフットプリント削減とハードウェアコスト効率を上回りながら,完全精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
例えば、2ビットのMINT VGG-16はCIFAR-10で90.6%の精度を達成し、完全な精度モデルからメモリフットプリントを約93.8%削減し、計算エネルギーを90%削減した。
コードはhttps://github.com/Intelligent-Computing-Lab-Yale/MINT-Quantizationで公開されている。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - DNN Quantization with Attention [5.72175302235089]
低ビット量子化を緩和するトレーニング手順を提案する。
この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。
実験では、他の低ビット量子化技術よりも優れている。
論文 参考訳(メタデータ) (2021-03-24T16:24:59Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。