論文の概要: Spike-driven Large Language Model
- arxiv url: http://arxiv.org/abs/2604.16475v1
- Date: Sat, 11 Apr 2026 17:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.709261
- Title: Spike-driven Large Language Model
- Title(参考訳): スパイク駆動型大規模言語モデル
- Authors: Han Xu, Xuerui Qiu, Baiyu Chen, Xinhao Luo, Xingrun Xing, Jiahong Zhang, Bo Lei, Tiejun Huang, Bo Xu, Guoqi Li,
- Abstract要約: スパイキングニューラルネットワーク(SNN)はスパイク駆動特性を持つ。
現在のLarge Language Models (LLM) は主に大規模密度行列乗法に基づいている。
本研究では,スパース加算操作により高密度行列乗算を除去するスパイク駆動型大規模言語モデルであるSDLLMを提案する。
- 参考スコア(独自算出の注目度): 49.52947423982696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Language Models (LLMs) are primarily based on large-scale dense matrix multiplications. Inspired by the brain's information processing mechanism, we explore the fundamental question: how to effectively integrate the brain's spiking-driven characteristics into LLM inference. Spiking Neural Networks (SNNs) possess spike-driven characteristics, and some works have attempted to combine SNNs with Transformers. However, achieving spike-driven LLMs with billions of parameters, relying solely on sparse additions, remains a challenge in the SNN field. To address the issues of limited representational capacity and sparsity in existing spike encoding schemes at the LLM level, we propose SDLLM, a spike-driven large language model that eliminates dense matrix multiplications through sparse addition operations. Specifically, we use the plug-and-play gamma-SQP two-step spike encoding method to ensure that the quantization process aligns with the model's semantic space, mitigating representation degradation caused by binary spikes. Furthermore, we introduce bidirectional encoding under symmetric quantization and membrane potential clipping mechanisms, leading to spike trains with no or low firing counts dominating, significantly reducing the model's spike firing rate, while halving the number of time steps. Experimental results show that SDLLM not only significantly reduces inference costs but also achieves state-of-the-art task performance under the spike-based paradigm. For example, compared to previous spike-based LLMs, SDLLM reduces energy consumption by 7x and improves accuracy by 4.2%. Our model provides inspiration for the architecture design of the next generation of event-driven neuromorphic chips.
- Abstract(参考訳): 現在のLarge Language Models (LLM) は主に大規模密度行列乗法に基づいている。
脳の情報処理機構にインスパイアされた我々は、脳のスパイク駆動特性をLLM推論に効果的に統合する方法という根本的な疑問を探求した。
スパイキングニューラルネットワーク(SNN)はスパイク駆動特性を持ち、いくつかの研究はSNNとトランスフォーマーを組み合わせている。
しかし、数十億のパラメータを持つスパイク駆動LLMの実現は、スパース追加にのみ依存しているが、SNN分野における課題である。
LLMレベルでの既存のスパイク符号化方式における表現能力の制限と空間性の問題に対処するため,スパース加算操作による高密度行列乗算を除去するスパイク駆動型大規模言語モデルであるSDLLMを提案する。
具体的には、プラグアンドプレイのガンマ-SQP2ステップスパイク符号化法を用いて、量子化プロセスがモデルのセマンティック空間と一致し、バイナリスパイクによる表現劣化を緩和する。
さらに、対称量子化および膜電位クリッピング機構の下で双方向符号化を導入し、発火回数の少ないスパイク列車が支配的となり、時間ステップの半減を図りながら、モデルのスパイク発火速度を著しく低下させる。
実験結果から,SDLLMは推論コストを大幅に削減するだけでなく,スパイクベースパラダイムの下での最先端タスク性能も達成できることがわかった。
例えば、以前のスパイクベースのLCMと比較して、SDLLMはエネルギー消費を7倍削減し、精度を4.2%向上させる。
我々のモデルは、次世代のイベント駆動型ニューロモルフィックチップのアーキテクチャ設計にインスピレーションを与える。
関連論文リスト
- Neural Dynamics Self-Attention for Spiking Transformers [59.57278823240336]
TransformerアーキテクチャによるSNN(Spike Neural Networks)は、エネルギー効率とパフォーマンスのバランスをとるための、有望な経路を提供する。
既存のスパイキングトランスフォーマーは、(i)ニューラルネットワーク(ANN)と(ii)推論時の高メモリオーバーヘッドと比較して、大幅なパフォーマンスギャップがあるという2つの重要な課題に直面している。
本稿では、局所受容野を持つスパイキングニューロンを用いて、メモリ要求を減らしながら注意を計算するLRF-Dynを提案する。
論文 参考訳(メタデータ) (2026-03-09T12:23:37Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing [38.632763514823864]
IML-Spikeformerは大規模音声処理用に設計されたスパイクトランスフォーマーアーキテクチャである。
IML-SpikeformerはAiShell-1では6.0%、Libri-960では3.4%というワードエラー率を達成した。
論文 参考訳(メタデータ) (2025-07-10T03:26:24Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking [43.275370104552344]
人間の脳は、同様のパラメータを持つ大きな言語モデルよりもはるかにエネルギー効率が高い。
本稿では,最初のスパイク型大言語モデルであるSpikeLLMを提案する。
SpikeLLMは11.01%のWikiText2の複雑さを低減し、一般的なシーン推論の2.55%の精度を改善する。
論文 参考訳(メタデータ) (2024-07-05T08:37:17Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。