論文の概要: SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- arxiv url: http://arxiv.org/abs/2407.04752v1
- Date: Fri, 5 Jul 2024 08:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 22:46:24.870900
- Title: SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- Title(参考訳): SpikeLLM: サイリエンシベースのスパイクにより、ニューラルネットワークを大規模言語モデルにスケールアップする
- Authors: Xingrun Xing, Boyan Gao, Zheng Zhang, David A. Clifton, Shitao Xiao, Li Du, Guoqi Li, Jiajun Zhang,
- Abstract要約: 数十億のパラメータを持つ最近の大規模言語モデル(LLM)は、様々な現実世界のアプリケーションにまたがってパフォーマンスを高めている。
人間の脳は、同様の数のパラメータを持つLSMに比べて、エネルギー効率が著しく高い。
本稿では,SpykeLLM と呼ばれる最近の LLM として,最初のスパイク大言語モデルを提案する。
- 参考スコア(独自算出の注目度): 43.275370104552344
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent advancements in large language models (LLMs) with billions of parameters have significantly boosted their performance across various real-world applications. However, the inference processes for these models require substantial energy and computational resources, presenting considerable deployment challenges. In contrast, human brains, which contain approximately 86 billion biological neurons, exhibit significantly greater energy efficiency compared to LLMs with a similar number of parameters. Inspired by this, we redesign 7 to 70 billion parameter LLMs using bio-plausible spiking mechanisms, emulating the efficient behavior of the human brain. We propose the first spiking large language model as recent LLMs termed SpikeLLM. Coupled with the proposed model, a novel spike-driven quantization framework named Optimal Brain Spiking is introduced to reduce the energy cost and accelerate inference speed via two essential approaches: first (second)-order differentiation-based salient channel detection, and per-channel salient outlier expansion with Generalized Integrate-and-Fire neurons. Our proposed spike-driven quantization can plug in main streams of quantization training methods. In the OmniQuant pipeline, SpikeLLM significantly reduces 25.51% WikiText2 perplexity and improves 3.08% average accuracy of 6 zero-shot datasets on a LLAMA2-7B 4A4W model. In the GPTQ pipeline, SpikeLLM realizes a sparse ternary quantization, which achieves additive in all linear layers. Compared with PB-LLM with similar operations, SpikeLLM also exceeds significantly. We will release our code on GitHub.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)の最近の進歩は、様々な現実世界のアプリケーションでその性能を大幅に向上させた。
しかしながら、これらのモデルの推論プロセスは、かなりのエネルギーと計算資源を必要とし、相当な展開課題を提示する。
対照的に、約86億の生物学的ニューロンを含むヒトの脳は、同様の数のパラメータを持つLSMに比べて、エネルギー効率が著しく高い。
そこで本研究では,ヒト脳の効率的な動作をエミュレートするバイオプレースブルスパイキング機構を用いて,700億から700億のパラメータLSMを再設計した。
本稿では,SpykeLLM と呼ばれる最近の LLM として,最初のスパイク大言語モデルを提案する。
提案モデルと組み合わせたスパイク駆動量子化フレームワークであるOptimal Brain Spikingを導入し、エネルギーコストを削減し、第1(第2)次微分に基づくサルエントチャネル検出と、一般積分およびファイアニューロンを用いたチャネルごとサルエントアウトリー展開という2つの基本的なアプローチにより推論速度を加速する。
提案するスパイク駆動量子化は,量子化学習法の主要なストリームをプラグインすることができる。
OmniQuantパイプラインでは、SpikeLLMは25.51%のWikiText2パープレキシティを著しく削減し、LLAMA2-7B 4A4Wモデルで6つのゼロショットデータセットの平均精度を3.08%改善した。
GPTQパイプラインでは、SpikeLLMはスパース3次量子化を実現し、すべての線形層において付加性を達成する。
PB-LLMと同じような操作で比較すると、SpikeLLMは大幅に上回っている。
コードをGitHubでリリースします。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms [30.825695629006628]
バイオインスパイアされたスパイクニューラルネットワーク(SNN)は、生物学的可視性、事象駆動性、バイナリアクティベーションの利点がある。
大規模言語モデルは有望な一般化能力を示しており、より一般的なスパイク駆動モデルを探究する上で価値のある問題である。
本研究は、識別的および生成的タスクを含む、汎用言語タスクのための最初の完全なスパイク機構を提案する。
論文 参考訳(メタデータ) (2024-06-05T13:59:03Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - RPTQ: Reorder-based Post-training Quantization for Large Language Models [46.03754730678076]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを示しているが、そのデプロイメントはメモリ使用量が非常に多いため、課題を呈している。
本稿では、リオーダーベースのアプローチを用いたRTTQと呼ばれる量子化手法を提案する。
実験では,LPMの3ビットアクティベーションを初めて利用し,メモリ使用量の大幅な削減を実現した。
論文 参考訳(メタデータ) (2023-04-03T15:46:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。