論文の概要: SpikingMamba: Towards Energy-Efficient Large Language Models via Knowledge Distillation from Mamba
- arxiv url: http://arxiv.org/abs/2510.04595v1
- Date: Mon, 06 Oct 2025 08:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.760186
- Title: SpikingMamba: Towards Energy-Efficient Large Language Models via Knowledge Distillation from Mamba
- Title(参考訳): SpikingMamba:Mambaの知識蒸留によるエネルギー効率の高い大規模言語モデルを目指して
- Authors: Yulong Huang, Jianxiong Tang, Chao Wang, Ziyi Wang, Jianguo Zhang, Zhichao Lu, Bojun Cheng, Luziwei Leng,
- Abstract要約: スパイクニューラルネットワーク(SNN)は、密度の高い行列乗算をスパース蓄積に置き換えることでエネルギー効率を向上させる。
エネルギー効率の低いSNNベース大規模言語モデル(LLM)であるSpkingMambaを提案する。
実験の結果、SpikeMamba-1.3BはオリジナルのMambaに比べて4.76$times$エネルギーの恩恵を受けており、0ショット精度の差は4.78%に過ぎなかった。
- 参考スコア(独自算出の注目度): 24.319838551259057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance across tasks but remain energy-intensive due to dense matrix operations. Spiking neural networks (SNNs) improve energy efficiency by replacing dense matrix multiplications with sparse accumulations. Their sparse spike activity enables efficient LLMs deployment on edge devices. However, prior SNN-based LLMs often sacrifice performance for efficiency, and recovering accuracy typically requires full pretraining, which is costly and impractical. To address this, we propose SpikingMamba, an energy-efficient SNN-based LLMs distilled from Mamba that improves energy efficiency with minimal accuracy sacrifice. SpikingMamba integrates two key components: (a) TI-LIF, a ternary-integer spiking neuron that preserves semantic polarity through signed multi-level spike representations. (b) A training-exclusive Smoothed Gradient Compensation (SGC) path mitigating quantization loss while preserving spike-driven efficiency. We employ a single-stage distillation strategy to transfer the zero-shot ability of pretrained Mamba and further enhance it via reinforcement learning (RL). Experiments show that SpikingMamba-1.3B achieves a 4.76$\times$ energy benefit, with only a 4.78\% zero-shot accuracy gap compared to the original Mamba, and achieves a further 2.55\% accuracy improvement after RL.
- Abstract(参考訳): 大規模言語モデル (LLM) はタスク全体にわたって顕著な性能を達成しているが、高密度行列演算のためエネルギー集約性は保たれている。
スパイクニューラルネットワーク(SNN)は、密度の高い行列乗算をスパース蓄積に置き換えることでエネルギー効率を向上させる。
スパーススパイクアクティビティは、エッジデバイスに効率的なLSMをデプロイすることを可能にする。
しかしながら、以前のSNNベースのLLMは効率性のために性能を犠牲にし、精度を回復するためには通常、コストがかかり実用的ではない完全な事前訓練を必要とする。
そこで本研究では,エネルギー効率を最小限に抑えつつエネルギー効率を向上する,エネルギー効率の高いSNN系LLMであるSpkingMambaを提案する。
SpikingMambaは2つの重要なコンポーネントを統合する。
(a)TI-LIFは、署名された多レベルスパイク表現を通して意味的極性を維持する三元整数スパイクニューロンである。
b) スパイク駆動効率を保ちながら量子化損失を緩和する学習排他的スムースな勾配補償(SGC)経路。
我々は,プレトレーニング済みマンバのゼロショット能力を伝達し,強化学習(RL)によりさらに強化するために,単段蒸留方式を用いる。
実験の結果、SpikeMamba-1.3Bのエネルギー利益は4.76$\times$で、元のMambaと比較して0ショット精度の差は4.78\%しかなく、RL後の2.55\%の精度改善が達成されている。
関連論文リスト
- DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning [15.933542902352604]
本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。
実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T05:25:16Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking [43.275370104552344]
人間の脳は、同様のパラメータを持つ大きな言語モデルよりもはるかにエネルギー効率が高い。
本稿では,最初のスパイク型大言語モデルであるSpikeLLMを提案する。
SpikeLLMは11.01%のWikiText2の複雑さを低減し、一般的なシーン推論の2.55%の精度を改善する。
論文 参考訳(メタデータ) (2024-07-05T08:37:17Z) - Ultra-low Precision Multiplication-free Training for Deep Neural
Networks [20.647925576138807]
訓練において、線形層はエネルギーを消費する全精度乗算の激しい使用のために最もエネルギーを消費する。
本稿では、FP32の乗算を全て置き換えるために、適応層スケールポット量子化(ALS-POTQ)法と乗算自由MAC(MF-MAC)法を提案する。
トレーニング方式では, 上記の手法はすべて余剰乗算を導入しないので, トレーニング中の線形層におけるエネルギー消費量の最大95.8%を削減できる。
論文 参考訳(メタデータ) (2023-02-28T10:05:45Z) - A Spike in Performance: Training Hybrid-Spiking Neural Networks with
Quantized Activation Functions [6.574517227976925]
Spiking Neural Network(SNN)は、エネルギー効率の高いコンピューティングに対する有望なアプローチである。
我々は、非スパイキングネットワークをSNNに変換する際に、最先端の精度を維持する方法を示す。
論文 参考訳(メタデータ) (2020-02-10T05:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。