論文の概要: SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- arxiv url: http://arxiv.org/abs/2407.04752v2
- Date: Mon, 03 Mar 2025 06:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:13:18.699913
- Title: SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- Title(参考訳): SpikeLLM: サイリエンシベースのスパイクにより、ニューラルネットワークを大規模言語モデルにスケールアップする
- Authors: Xingrun Xing, Boyan Gao, Zheng Zhang, David A. Clifton, Shitao Xiao, Li Du, Guoqi Li, Jiajun Zhang,
- Abstract要約: 人間の脳は、同様のパラメータを持つ大きな言語モデルよりもはるかにエネルギー効率が高い。
本稿では,最初のスパイク型大言語モデルであるSpikeLLMを提案する。
SpikeLLMは11.01%のWikiText2の複雑さを低減し、一般的なシーン推論の2.55%の精度を改善する。
- 参考スコア(独自算出の注目度): 43.275370104552344
- License:
- Abstract: Recent advancements in large language models (LLMs) with billions of parameters have improved performance in various applications, but their inference processes demand significant energy and computational resources. In contrast, the human brain, with approximately 86 billion neurons, is much more energy-efficient than LLMs with similar parameters. Inspired by this, we redesign 7$\sim$70 billion parameter LLMs using bio-plausible spiking mechanisms, emulating the efficient behavior of the human brain. We propose the first spiking large language model, SpikeLLM. Coupled with the proposed model, two essential approaches are proposed to improve spike training efficiency: Generalized Integrate-and-Fire (GIF) neurons to compress spike length from $T$ to $\frac{T}{L} \log_2 L$ bits, and an Optimal Brain Spiking framework to divide outlier channels and allocate different $T$ for GIF neurons, which further compresses spike length to approximate $log_2T$ bits. The necessity of spike-driven LLM is proved by comparison with quantized LLMs with similar operations. In the OmniQuant pipeline, SpikeLLM reduces 11.01% WikiText2 perplexity and improves 2.55% accuracy of common scene reasoning on a LLAMA-7B W4A4 model. In the GPTQ pipeline, SpikeLLM achieves direct additive in linear layers, significantly exceeding PB-LLMs.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)の最近の進歩は、様々なアプリケーションの性能を改善したが、それらの推論プロセスは、かなりのエネルギーと計算資源を必要とする。
対照的に、約86億のニューロンを持つヒトの脳は、同様のパラメータを持つLSMよりもエネルギー効率が高い。
このことにインスパイアされた私たちは、人間の脳の効率的な振る舞いをエミュレートし、バイオプレース可能なスパイキング機構を使って7$\sim$70B(700億ドル)のパラメータLSMを再設計しました。
本稿では,最初のスパイク型大言語モデルであるSpikeLLMを提案する。
提案モデルと組み合わせることで、スパイクトレーニング効率を向上させる2つの重要なアプローチが提案されている: 一般化統合ファイア(GIF)ニューロンはスパイク長を$T$から$\frac{T}{L} \log_2 L$ bitsに圧縮し、外部チャネルを分割しGIFニューロンに対して異なる$T$を割り当てる最適ブレインスパイキングフレームワークは、スパイク長を$log_2T$ bitsに圧縮する。
スパイク駆動型LDMの必要性は、量子化LDMと類似の演算との比較によって証明される。
OmniQuantパイプラインでは、SpikeLLMは11.01%のWikiText2パープレキシティを低減し、LAMA-7B W4A4モデルで一般的なシーン推論の2.55%の精度を向上させる。
GPTQパイプラインでは、SpikeLLMは、PB-LLMをはるかに上回る線形層において直接添加性を達成する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms [30.825695629006628]
バイオインスパイアされたスパイクニューラルネットワーク(SNN)は、生物学的可視性、事象駆動性、バイナリアクティベーションの利点がある。
大規模言語モデルは有望な一般化能力を示しており、より一般的なスパイク駆動モデルを探究する上で価値のある問題である。
本研究は、識別的および生成的タスクを含む、汎用言語タスクのための最初の完全なスパイク機構を提案する。
論文 参考訳(メタデータ) (2024-06-05T13:59:03Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - RPTQ: Reorder-based Post-training Quantization for Large Language Models [46.03754730678076]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを示しているが、そのデプロイメントはメモリ使用量が非常に多いため、課題を呈している。
本稿では、リオーダーベースのアプローチを用いたRTTQと呼ばれる量子化手法を提案する。
実験では,LPMの3ビットアクティベーションを初めて利用し,メモリ使用量の大幅な削減を実現した。
論文 参考訳(メタデータ) (2023-04-03T15:46:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。