論文の概要: MINT: Multiplier-less Integer Quantization for Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2305.09850v3
- Date: Tue, 5 Sep 2023 04:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:14:33.091125
- Title: MINT: Multiplier-less Integer Quantization for Spiking Neural Networks
- Title(参考訳): MINT:スパイクニューラルネットワークのためのマルチプライヤレス整数量子化
- Authors: Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda
- Abstract要約: スパイキングニューラルネットワーク(SNN)における重みと膜電位の均一量子化手法を提案する。
MINT量子化は、重みと膜電位の間の量子化スケーリング係数を共有し、乗算器の必要性をなくす。
実験の結果,提案手法は完全精度のモデルと一致する計算精度が得られた。
- 参考スコア(独自算出の注目度): 20.473852621915956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Multiplier-less INTeger (MINT) quantization, an efficient uniform
quantization scheme for the weights and membrane potentials in spiking neural
networks (SNNs). Unlike prior SNN quantization works, MINT quantizes the
memory-hungry membrane potentials to extremely low precision (2-bit) to
significantly reduce the total memory footprint. Additionally, MINT
quantization shares the quantization scaling factor between the weights and
membrane potentials, eliminating the need for multipliers that are necessary
for vanilla uniform quantization. Experimental results demonstrate that our
proposed method achieves accuracy that matches the full-precision models and
other state-of-the-art SNN quantization works while outperforming them on total
memory footprint and hardware cost at deployment. For instance, 2-bit MINT
VGG-16 achieves 90.6% accuracy on CIFAR-10 with approximately 93.8% reduction
in total memory footprint from the full-precision model; meanwhile, it reduces
90% computation energy compared to the vanilla uniform quantization at
deployment.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)における重みと膜電位の均一化手法であるMINT(Multiplier-less INTeger)量子化法を提案する。
従来のSNN量子化法とは異なり、MINTはメモリ・ハングリー膜電位を極端に低い精度(2ビット)に量子化し、メモリ全体のフットプリントを大幅に減少させる。
さらに、MINT量子化は重みと膜電位の間の量子化スケーリング係数を共有し、バニラ均一量子化に必要な乗算器を不要にする。
実験により,提案手法は,全精度モデルと他の最先端SNN量子化手法とを一致させながら,総メモリフットプリントとハードウェアコストで性能を向上することを示す。
例えば、2ビットのMINT VGG-16はCIFAR-10で90.6%の精度を実現し、全体のメモリフットプリントを全精度モデルから約93.8%削減した。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - DNN Quantization with Attention [5.72175302235089]
低ビット量子化を緩和するトレーニング手順を提案する。
この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。
実験では、他の低ビット量子化技術よりも優れている。
論文 参考訳(メタデータ) (2021-03-24T16:24:59Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。