論文の概要: SpikeGPT: Generative Pre-trained Language Model with Spiking Neural
Networks
- arxiv url: http://arxiv.org/abs/2302.13939v2
- Date: Tue, 28 Feb 2023 06:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 12:29:30.140726
- Title: SpikeGPT: Generative Pre-trained Language Model with Spiking Neural
Networks
- Title(参考訳): SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル
- Authors: Rui-Jie Zhu, Qihang Zhao, Jason K. Eshraghian
- Abstract要約: スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを低減する。
生成言語モデルを、純粋なバイナリ、イベント駆動のスパイクアクティベーションユニットで実装する。
我々の知る限りでは、これは今までのどの機能的バックプロップ訓練SNNよりも4倍大きい。
- 参考スコア(独自算出の注目度): 0.8937905773981701
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As the size of large language models continue to scale, so does the
computational resources required to run it. Spiking neural networks (SNNs) have
emerged as an energy-efficient approach to deep learning that leverage sparse
and event-driven activations to reduce the computational overhead associated
with model inference. While they have become competitive with non-spiking
models on many computer vision tasks, SNNs have also proven to be more
challenging to train. As a result, their performance lags behind modern deep
learning, and we are yet to see the effectiveness of SNNs in language
generation. In this paper, inspired by the RWKV language model, we successfully
implement `SpikeGPT', a generative language model with pure binary,
event-driven spiking activation units. We train the proposed model on three
model variants: 45M, 125M and 260M parameters. To the best of our knowledge,
this is 4x larger than any functional backprop-trained SNN to date. We achieve
this by modifying the transformer block to replace multi-head self attention to
reduce quadratic computational complexity to linear with increasing sequence
length. Input tokens are instead streamed in sequentially to our attention
mechanism (as with typical SNNs). Our preliminary experiments show that
SpikeGPT remains competitive with non-spiking models on tested benchmarks,
while maintaining 5x less energy consumption when processed on neuromorphic
hardware that can leverage sparse, event-driven activations. Our code
implementation is available at https://github.com/ridgerchu/SpikeGPT.
- Abstract(参考訳): 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。
スパイキングニューラルネットワーク(SNN)は、モデル推論に関連する計算オーバーヘッドを低減するためにスパースとイベント駆動のアクティベーションを活用するディープラーニングに対するエネルギー効率の高いアプローチとして登場した。
多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。
その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。
本稿では,RWKV言語モデルに触発されて,純粋に二進的イベント駆動のスパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。
提案したモデルは,45M,125M,260Mの3種類のモデルで学習する。
我々の知る限りでは、これは今までのどの機能的バックプロップ訓練SNNよりも4倍大きい。
本研究では,マルチヘッド自己注意を置換するために変圧器ブロックを変更し,2次計算複雑性を線形に削減し,シーケンス長を増加させる。
入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。
予備実験により,SpikeGPTは,スパース,イベント駆動型アクティベーションを生かしたニューロモルフィックハードウェア上で処理した際のエネルギー消費量を5倍に抑えつつ,試験ベンチマーク上での非スパイキングモデルとの競争力を維持した。
私たちのコード実装はhttps://github.com/ridgerchu/spikegptで利用可能です。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Language Modeling on a SpiNNaker 2 Neuromorphic Chip [2.760675104404914]
ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。
ニューロモルフィックデバイス上での言語モデルの初の実装を実演する。
論文 参考訳(メタデータ) (2023-12-14T16:16:35Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - EGRU: Event-based GRU for activity-sparse inference and learning [0.8260432715157026]
本稿では,GRU(Gated Recurrent Units)をイベントベースアクティビティスパースモデルとして再構成するモデルを提案する。
イベントベースGRU(EGRU)は,実世界のタスクにおける最先端のリカレントネットワークモデルと比較して,競合性能を示す。
論文 参考訳(メタデータ) (2022-06-13T14:07:56Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。
現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。
本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:12:06Z) - Training Deep Neural Networks with Constrained Learning Parameters [4.917317902787792]
ディープラーニングタスクのかなりの部分はエッジコンピューティングシステムで実行される。
我々は, Combinatorial Neural Network Training Algorithm (CNNTrA)を提案する。
CoNNTrAは、MNIST、Iris、ImageNetデータセット上で、第三次学習パラメータでディープラーニングモデルをトレーニングする。
以上の結果から,CNNTrAモデルはメモリを32倍に削減し,バックプロパゲーションモデルと同程度の誤差を有することがわかった。
論文 参考訳(メタデータ) (2020-09-01T16:20:11Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。