論文の概要: Energy-Efficient and Dequantization-Free Q-LLMs: A Spiking Neural Network Approach to Salient Value Mitigation
- arxiv url: http://arxiv.org/abs/2510.19498v1
- Date: Wed, 22 Oct 2025 11:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.749728
- Title: Energy-Efficient and Dequantization-Free Q-LLMs: A Spiking Neural Network Approach to Salient Value Mitigation
- Title(参考訳): エネルギー効率と分散化のないQ-LLM: スパイキングニューラルネットワークによる有価値除去
- Authors: Chenyu Wang, Zhanglu Yan, Zhi Zhou, Xu Chen, Weng-Fai Wong,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、複雑なMACを時間蓄積(ACC)に置き換えることで、混合精度の記憶とエネルギー効率の計算を支援する
そこで我々はSpykeQuantを提案する。これは精度混合量子化を正常な値を持つアクティベーションに選択的に適用し、それらをバイナリスパイクカウントに再エンコードする。
実験の結果、SpikeQuantは、W4A4量子化の下では一貫してほぼFP16のパープレキシティを達成し、既存の方法に比べて最大4.6倍のエネルギーコストを削減した。
- 参考スコア(独自算出の注目度): 18.963480523099694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models (LLMs), weight-activation quantization helps fit models on edge device by reducing memory and compute bit-widths. However, three challenges persist for energy constrained hardware: (1) even after quantization, multiply-accumulate (MAC) operations remain unavoidable and continue to dominate energy consumption; (2) dequantization (or per-tensor/channel rescaling) introduces extra arithmetic and data movement, increasing latency and energy; (3) uniform parameters bit widths clip salient values-while intra-channel mixed precision is generally impractical on current matrix hardware and memory. In contrast, brain-inspired Spiking Neural Networks (SNNs), owing to their binary spike-based information representation and the Integrate-and-Fire (IF) paradigm, naturally support mixed-precision storage and energy-efficient computation by replacing complex MACs with temporal Accumulate (ACCs). Motivated by this property, we propose SpikeQuant, which selectively applies mixed-precision quantization to activations with salient values and re-encodes them into binary spike counts, thereby enabling dynamic mixed storage of different bitwidths. Furthermore, by embedding the quantization scale into the threshold of the IF mechanism, our approach performs energy-efficient linear transformations on weights and activations while avoiding explicit dequantization. Experimental results demonstrate that SpikeQuant consistently achieves near-FP16 perplexity under W4A4 quantization while reducing energy cost by up to 4.6 times compared to existing methods, highlighting its effectiveness for accurate and energy-efficient LLM deployment.
- Abstract(参考訳): 大型言語モデル (LLMs) の時代には、メモリを減らしビット幅を計算することにより、ウェイトアクティベーション量子化はエッジデバイス上のモデルに適合する。
しかし,1) 量子化後でも乗算累積(MAC) 演算は避けられず,エネルギー消費を支配し続ける,2) 量子化(またはテンソル/チャネル再スケーリング) は余分な演算とデータ移動を導入し,遅延とエネルギーを増大させる,3) 均一パラメータのビット幅はクリップ正値であり,チャネル内混合精度は現在の行列ハードウェアやメモリでは一般的に非現実的である,という3つの課題がある。
対照的に、脳にインスパイアされたスパイキングニューラルネットワーク(SNN)は、2進スパイクベースの情報表現と積分・アンド・ファイア(IF)パラダイムにより、複雑なMACを時間的蓄積(ACC)に置き換えることで、混合精度の記憶とエネルギー効率の計算を自然にサポートする。
この特性によって動機づけられたSpikeQuantは、正値を持つアクティベーションに混合精度の量子化を選択的に適用し、それらを二進スパイクカウントに再符号化することで、異なるビット幅の動的混合記憶を可能にする。
さらに,IF機構のしきい値に量子化スケールを埋め込むことにより,比重やアクティベーションにエネルギー効率の高い線形変換を行う。
実験結果から、SpikeQuantはW4A4量子化の下でほぼFP16のパープレキシティを一貫して達成し、既存の方法に比べて最大4.6倍のエネルギーコストを削減し、正確でエネルギー効率のよいLCM配置の有効性を強調した。
関連論文リスト
- Binary Weight Multi-Bit Activation Quantization for Compute-in-Memory CNN Accelerators [19.034502382765755]
CIMベースのアクセラレータ上でCNNのための新しいバイナリ重み付きマルチビットアクティベーション(BWMA)手法を提案する。
我々の貢献は、各層における重み量子化のための閉形式解の導出を含み、二項化重みの表現能力を大幅に改善することである。
BWMAは既存の手法よりも顕著な精度の向上を実現し、それぞれのデータセットで1.44%-5.46%、0.35%-5.37%の利得を登録している。
論文 参考訳(メタデータ) (2025-08-29T11:24:24Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for
Energy-Efficient Low-precision Deep Convolutional Neural Networks [13.520972975766313]
本研究では、重みの非一様量子化を利用して、エネルギー効率の低い深部畳み込みニューラルネットワーク推論を可能にする枠組みを提案する。
また、重みのビット幅を圧縮する新しいデータ表現形式Encoded Low-Precision Binary Signed Digitを提案する。
論文 参考訳(メタデータ) (2022-07-31T01:34:56Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。