Fugu-MT 論文翻訳(概要): MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking Neural Networks

論文の概要: MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking Neural Networks

arxiv url: http://arxiv.org/abs/2305.09850v4
Date: Tue, 7 Nov 2023 05:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 19:46:19.632387
Title: MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking Neural Networks
Title（参考訳）: MINT:エネルギー効率の良いスパイクニューラルネットワークのための乗算器レスINTeger量子化
Authors: Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda
Abstract要約: スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。 MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
参考スコア（独自算出の注目度）: 20.473852621915956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Multiplier-less INTeger (MINT) quantization, a uniform quantization scheme that efficiently compresses weights and membrane potentials in spiking neural networks (SNNs). Unlike previous SNN quantization methods, MINT quantizes memory-intensive membrane potentials to an extremely low precision (2-bit), significantly reducing the memory footprint. MINT also shares the quantization scaling factor between weights and membrane potentials, eliminating the need for multipliers required in conventional uniform quantization. Experimental results show that our method matches the accuracy of full-precision models and other state-of-the-art SNN quantization techniques while surpassing them in memory footprint reduction and hardware cost efficiency at deployment. For example, 2-bit MINT VGG-16 achieves 90.6% accuracy on CIFAR-10, with roughly 93.8% reduction in memory footprint from the full-precision model and 90% reduction in computation energy compared to vanilla uniform quantization at deployment. The code is available at https://github.com/Intelligent-Computing-Lab-Yale/MINT-Quantization.
Abstract（参考訳）: スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法であるMINT(Multiplier-less INTeger)量子化を提案する。従来のSNN量子化法とは異なり、MINTはメモリ集約膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。 MINTはまた、重量と膜電位の間の量子化スケーリング係数を共有し、従来の均一な量子化に必要な乗算器の必要性を排除している。実験結果から,本手法は,メモリフットプリント削減とハードウェアコスト効率を上回りながら,完全精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。例えば、2ビットのMINT VGG-16はCIFAR-10で90.6%の精度を達成し、完全な精度モデルからメモリフットプリントを約93.8%削減し、計算エネルギーを90%削減した。コードはhttps://github.com/Intelligent-Computing-Lab-Yale/MINT-Quantizationで公開されている。

関連論文リスト

MD-SNN: Membrane Potential-aware Distillation on Quantized Spiking Neural Network [18.23285395499578]
スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワークに代わる有望でエネルギー効率の良い代替手段を提供する。 SNNは、複雑な時間的ダイナミクスによるメモリと計算に関する課題に直面している。量子化スパイキングニューラルネットワーク(MD-SNN)における膜対応蒸留の導入
論文参考訳（メタデータ） (2025-12-04T04:27:19Z)
MSQ: Memory-Efficient Bit Sparsification Quantization [11.510434574824213]
混合精度量子化は効率と精度のバランスが優れているため、広く好まれる。メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。 MSQは、トレーニング可能なパラメータの最大8.00倍の削減、トレーニング時間の最大86%の削減を実現している。
論文参考訳（メタデータ） (2025-07-30T03:21:29Z)
SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文参考訳（メタデータ） (2024-04-15T03:07:16Z)
MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術であるラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文参考訳（メタデータ） (2023-09-29T15:49:54Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。最適局所精度設定は2つの手法を用いて自動的に学習される。 Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文参考訳（メタデータ） (2021-11-29T09:57:00Z)
Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文参考訳（メタデータ） (2021-06-27T06:27:22Z)
DNN Quantization with Attention [5.72175302235089]
低ビット量子化を緩和するトレーニング手順を提案する。この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。実験では、他の低ビット量子化技術よりも優れている。
論文参考訳（メタデータ） (2021-03-24T16:24:59Z)
Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文参考訳（メタデータ） (2020-02-03T04:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。