論文の概要: MINT: Multiplier-less Integer Quantization for Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2305.09850v2
- Date: Sat, 20 May 2023 07:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:23:46.738285
- Title: MINT: Multiplier-less Integer Quantization for Spiking Neural Networks
- Title(参考訳): MINT:スパイクニューラルネットワークのためのマルチプライヤレス整数量子化
- Authors: Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda
- Abstract要約: スパイキングニューラルネットワーク(SNN)の重みと膜電位に対する新しい一様量子化手法を提案する。
MINT量子化は、重みと膜電位の間の量子化スケールを共有し、乗算器や浮動小数点演算ユニットを必要としない。
実験により,提案手法が他の最先端SNN量子化処理と一致した精度を実現することを示す。
- 参考スコア(独自算出の注目度): 8.018119741131065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Multiplier-less INTeger (MINT) quantization, an efficient uniform
quantization scheme for the weights and membrane potentials in spiking neural
networks (SNNs). Unlike prior SNN quantization works, MINT quantizes the
memory-hungry membrane potentials to extremely low bit-width (2-bit) to
significantly reduce the total memory footprint. Additionally, MINT
quantization shares the quantization scale between the weights and membrane
potentials, eliminating the need for multipliers and floating arithmetic units,
which are required by the standard uniform quantization. Experimental results
demonstrate that our proposed method achieves accuracy that matches other
state-of-the-art SNN quantization works while outperforming them on total
memory footprint and hardware cost at deployment time. For instance, 2-bit MINT
VGG-16 achieves 48.6% accuracy on TinyImageNet (0.28% better than the
full-precision baseline) with approximately 93.8% reduction in total memory
footprint from the full-precision model; meanwhile, our model reduces area by
93% and dynamic power by 98% compared to other SNN quantization counterparts.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)における重みと膜電位の均一化手法であるMINT(Multiplier-less INTeger)量子化法を提案する。
以前のSNN量子化法とは異なり、MINTはメモリ・ハングリー膜電位を極低ビット幅(2ビット)に量子化し、メモリ全体のフットプリントを大幅に削減した。
さらに、MINT量子化は重みと膜電位の間の量子化スケールを共有し、標準均一量子化で必要とされる乗算器や浮動小数点演算ユニットを不要にする。
実験結果から,提案手法は他のsn量子化手法と一致し,メモリフットプリントとデプロイメント時のハードウェアコストを上回って精度が向上することを示した。
例えば、2ビットのmint vgg-16は、tinyimagenetの48.6%の精度(全精度ベースラインより0.28%優れている)を達成し、全精度モデルから全体のメモリフットプリントを約93.8%削減した。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - DNN Quantization with Attention [5.72175302235089]
低ビット量子化を緩和するトレーニング手順を提案する。
この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。
実験では、他の低ビット量子化技術よりも優れている。
論文 参考訳(メタデータ) (2021-03-24T16:24:59Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。