論文の概要: Trimming Down Large Spiking Vision Transformers via Heterogeneous Quantization Search
- arxiv url: http://arxiv.org/abs/2412.05505v1
- Date: Sat, 07 Dec 2024 02:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:56.198205
- Title: Trimming Down Large Spiking Vision Transformers via Heterogeneous Quantization Search
- Title(参考訳): 不均一量子化探索による大型スパイキングビジョン変換器のトリミング
- Authors: Boxun Xu, Yufei Song, Peng Li,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、エッジデバイスやニューロモルフィックハードウェアへの展開に適している。
層ワイド量子化によりスパイキング変圧器を圧縮する新しい異種量子化法を提案する。
提案手法は, 精度85.3%, 97.57%, 80.4%を維持しながら, 5.69x, 8.72x, 10.2xの大幅なエネルギー削減を実現する。
- 参考スコア(独自算出の注目度): 3.758294848902233
- License:
- Abstract: Spiking Neural Networks (SNNs) are amenable to deployment on edge devices and neuromorphic hardware due to their lower dissipation. Recently, SNN-based transformers have garnered significant interest, incorporating attention mechanisms akin to their counterparts in Artificial Neural Networks (ANNs) while demonstrating excellent performance. However, deploying large spiking transformer models on resource-constrained edge devices such as mobile phones, still poses significant challenges resulted from the high computational demands of large uncompressed high-precision models. In this work, we introduce a novel heterogeneous quantization method for compressing spiking transformers through layer-wise quantization. Our approach optimizes the quantization of each layer using one of two distinct quantization schemes, i.e., uniform or power-of-two quantification, with mixed bit resolutions. Our heterogeneous quantization demonstrates the feasibility of maintaining high performance for spiking transformers while utilizing an average effective resolution of 3.14-3.67 bits with less than a 1% accuracy drop on DVS Gesture and CIFAR10-DVS datasets. It attains a model compression rate of 8.71x-10.19x for standard floating-point spiking transformers. Moreover, the proposed approach achieves a significant energy reduction of 5.69x, 8.72x, and 10.2x while maintaining high accuracy levels of 85.3%, 97.57%, and 80.4% on N-Caltech101, DVS-Gesture, and CIFAR10-DVS datasets, respectively.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、エッジデバイスやニューロモルフィックハードウェアへの展開に適している。
近年,SNNをベースとしたトランスフォーマーは,ANN(Artificial Neural Networks)に類似したアテンション機構を導入し,優れた性能を実現している。
しかし、携帯電話などのリソース制約のあるエッジデバイスに大規模なスパイキングトランスフォーマーモデルを配置することは、大規模な非圧縮型高精度モデルの高い計算要求によってもたらされる大きな課題を生んでいる。
本研究では, スパイキング変圧器を層ワイド量子化により圧縮する新しい異種量子化法を提案する。
提案手法は,2つの異なる量子化スキーム,すなわち,混合ビット分解能を持つ一様あるいは二次量子化方式の1つを用いて,各層の量子化を最適化する。
我々の異種量子化は、DVS GestureとCIFAR10-DVSデータセットにおいて、平均有効解像度3.14-3.67ビットを1%未満で利用しながら、スパイキングトランスフォーマーの高性能維持の可能性を示す。
標準浮動小数点スパイキング変圧器のモデル圧縮速度は8.71x-10.19xに達する。
さらに,提案手法は,N-Caltech101,DVS-Gesture,CIFAR10-DVSデータセットにおいて,85.3%,97.57%,80.4%の精度を維持しながら,5.69x,8.72x,10.2xの大幅なエネルギー削減を実現する。
関連論文リスト
- TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。
時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。
提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-06T13:14:52Z) - Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-16T23:38:35Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding [20.75335227098455]
大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。
NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。
本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
論文 参考訳(メタデータ) (2022-06-30T04:33:50Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Compression-aware Projection with Greedy Dimension Reduction for
Convolutional Neural Network Activations [3.6188659868203388]
分類精度と圧縮比のトレードオフを改善するための圧縮対応投影システムを提案する。
提案手法は,MobileNetV2/ResNet18/VGG16の精度低下により2.91x5.97xのメモリアクセスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-10-17T14:02:02Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。