論文の概要: Q-SpiNN: A Framework for Quantizing Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2107.01807v1
- Date: Mon, 5 Jul 2021 06:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:39:45.207131
- Title: Q-SpiNN: A Framework for Quantizing Spiking Neural Networks
- Title(参考訳): Q-SpiNN:スパイクニューラルネットワークの量子化フレームワーク
- Authors: Rachmad Vidya Wicaksana Putra, Muhammad Shafique
- Abstract要約: 精度を著しく低下させることなく、スパイキングニューラルネットワーク(SNN)のメモリフットプリントを削減するための顕著なテクニックは量子化である。
メモリ効率の高いSNNのための新しい量子化フレームワークQ-SpiNNを提案する。
教師なしネットワークでは、Q-SpiNNはメモリフットプリントを4倍削減し、MNISTデータセットのベースラインから1%以内の精度を維持する。
教師ネットワークでは、Q-SpiNNは、DVS-Gestureデータセットのベースラインから2%以内の精度を維持しながら、メモリを2倍削減する。
- 参考スコア(独自算出の注目度): 14.727296040550392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prominent technique for reducing the memory footprint of Spiking Neural
Networks (SNNs) without decreasing the accuracy significantly is quantization.
However, the state-of-the-art only focus on employing the weight quantization
directly from a specific quantization scheme, i.e., either the post-training
quantization (PTQ) or the in-training quantization (ITQ), and do not consider
(1) quantizing other SNN parameters (e.g., neuron membrane potential), (2)
exploring different combinations of quantization approaches (i.e., quantization
schemes, precision levels, and rounding schemes), and (3) selecting the SNN
model with a good memory-accuracy trade-off at the end. Therefore, the memory
saving offered by these state-of-the-art to meet the targeted accuracy is
limited, thereby hindering processing SNNs on the resource-constrained systems
(e.g., the IoT-Edge devices). Towards this, we propose Q-SpiNN, a novel
quantization framework for memory-efficient SNNs. The key mechanisms of the
Q-SpiNN are: (1) employing quantization for different SNN parameters based on
their significance to the accuracy, (2) exploring different combinations of
quantization schemes, precision levels, and rounding schemes to find efficient
SNN model candidates, and (3) developing an algorithm that quantifies the
benefit of the memory-accuracy trade-off obtained by the candidates, and
selects the Pareto-optimal one. The experimental results show that, for the
unsupervised network, the Q-SpiNN reduces the memory footprint by ca. 4x, while
maintaining the accuracy within 1% from the baseline on the MNIST dataset. For
the supervised network, the Q-SpiNN reduces the memory by ca. 2x, while keeping
the accuracy within 2% from the baseline on the DVS-Gesture dataset.
- Abstract(参考訳): 精度を著しく低下させることなく、スパイキングニューラルネットワーク(SNN)のメモリフットプリントを削減するための顕著なテクニックは量子化である。
However, the state-of-the-art only focus on employing the weight quantization directly from a specific quantization scheme, i.e., either the post-training quantization (PTQ) or the in-training quantization (ITQ), and do not consider (1) quantizing other SNN parameters (e.g., neuron membrane potential), (2) exploring different combinations of quantization approaches (i.e., quantization schemes, precision levels, and rounding schemes), and (3) selecting the SNN model with a good memory-accuracy trade-off at the end.
したがって、対象とする精度を満たすためにこれらの最先端技術によって提供されるメモリ節約は制限されており、リソース制約されたシステム(例えばIoT-Edgeデバイス)のSNN処理を妨げる。
そこで我々は,メモリ効率の高いSNNのための新しい量子化フレームワークQ-SpiNNを提案する。
Q-SpiNN の主なメカニズムは,(1) 異なる SNN パラメータの量子化を精度に対する重要性に基づいて利用すること,(2) 量子化スキーム,精度レベル,ラウンドリングスキームの異なる組み合わせを探索して効率的な SNN モデル候補を求めること,(3) 候補が取得したメモリ精度トレードオフの利点を定量化するアルゴリズムを開発し,Pareto-optimal モデルを選択すること,である。
実験の結果、教師なしネットワークでは、Q-SpiNNはメモリフットプリントをcaで削減することがわかった。
また,MNISTデータセットのベースラインから1%以内の精度を維持した。
教師付きネットワークでは、Q-SpiNNはメモリをcaで削減する。
DVS-Gestureデータセットのベースラインから2%以内の精度を維持した。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Optimizing Quantum Convolutional Neural Network Architectures for Arbitrary Data Dimension [2.9396076967931526]
量子畳み込みニューラルネットワーク(QCNN)は量子機械学習において有望なアプローチである。
量子リソースの割り当てを最適化しながら任意の入力データ次元を処理できるQCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-28T02:25:12Z) - tinySNN: Towards Memory- and Energy-Efficient Spiking Neural Networks [14.916996986290902]
スパイキングニューラルネットワーク(SNN)モデルは、高い精度を提供できるため、一般的に好適である。
しかし、資源とエネルギーを制約した組込みプラットフォームにそのようなモデルを適用することは非効率である。
本稿では,SNN処理のメモリおよびエネルギー要求を最適化する小型SNNフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-17T09:40:40Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - SGQuant: Squeezing the Last Bit on Graph Neural Networks with
Specialized Quantization [16.09107108787834]
本稿では,GNNのメモリ消費を体系的に低減する,特殊なGNN量子化スキームであるSGQuantを提案する。
SGQuantは、元の完全精度GNNと比較してメモリフットプリントを4.25倍から31.9倍に効果的に削減できることを示す。
論文 参考訳(メタデータ) (2020-07-09T22:42:34Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。