論文の概要: SpikeGPT: Generative Pre-trained Language Model with Spiking Neural
Networks
- arxiv url: http://arxiv.org/abs/2302.13939v3
- Date: Mon, 26 Jun 2023 02:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 23:29:28.643438
- Title: SpikeGPT: Generative Pre-trained Language Model with Spiking Neural
Networks
- Title(参考訳): SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル
- Authors: Rui-Jie Zhu, Qihang Zhao, Guoqi Li, Jason K. Eshraghian
- Abstract要約: スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
- 参考スコア(独自算出の注目度): 10.575541943697733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As the size of large language models continue to scale, so does the
computational resources required to run it. Spiking Neural Networks (SNNs) have
emerged as an energy-efficient approach to deep learning that leverage sparse
and event-driven activations to reduce the computational overhead associated
with model inference. While they have become competitive with non-spiking
models on many computer vision tasks, SNNs have also proven to be more
challenging to train. As a result, their performance lags behind modern deep
learning, and we are yet to see the effectiveness of SNNs in language
generation. In this paper, inspired by the Receptance Weighted Key Value (RWKV)
language model, we successfully implement `SpikeGPT', a generative language
model with binary, event-driven spiking activation units. We train the proposed
model on two model variants: 45M and 216M parameters. To the best of our
knowledge, SpikeGPT is the largest backpropagation-trained SNN model to date,
rendering it suitable for both the generation and comprehension of natural
language. We achieve this by modifying the transformer block to replace
multi-head self attention to reduce quadratic computational complexity O(N^2)
to linear complexity O(N) with increasing sequence length. Input tokens are
instead streamed in sequentially to our attention mechanism (as with typical
SNNs). Our preliminary experiments show that SpikeGPT remains competitive with
non-spiking models on tested benchmarks, while maintaining 20x fewer operations
when processed on neuromorphic hardware that can leverage sparse, event-driven
activations.
- Abstract(参考訳): 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。
spiking neural networks(snns)は、モデル推論に関連する計算オーバーヘッドを削減するためにスパースとイベント駆動のアクティベーションを活用する、ディープラーニングのエネルギー効率の高いアプローチとして登場した。
多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。
その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。
本稿では,Receptance Weighted Key Value (RWKV)言語モデルにヒントを得て,イベント駆動型スパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。
提案モデルを45mパラメータと216mパラメータの2つのモデルでトレーニングした。
我々の知る限り、SpikeGPTは今までで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
変換器ブロックを改良して,2次計算複雑性O(N^2)を2次計算複雑性O(N)に減らし,シーケンス長を増大させる。
入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。
予備実験では、SpikeGPTはテストベンチマークの非スパイキングモデルと競合する一方で、スパースでイベント駆動のアクティベーションを活用できるニューロモルフィックハードウェアで処理した場合の操作数を20倍に抑えることができた。
関連論文リスト
- Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文 参考訳(メタデータ) (2024-09-21T17:07:42Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Quantized Approximately Orthogonal Recurrent Neural Networks [6.524758376347808]
ORNNにおける重み行列の量子化を探求し、ほぼ直交RNN(QORNN)を量子化する。
本稿では,量子化学習(QAT)と計算予測を組み合わせた2つのQORNN学習手法を提案する。
最も効率的なモデルは、4ビットの量子化であっても、様々な標準ベンチマークで最先端のフル精度ORNN、LSTM、FastRNNと同様の結果が得られる。
論文 参考訳(メタデータ) (2024-02-05T09:59:57Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。
現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。
本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:12:06Z) - Training Deep Neural Networks with Constrained Learning Parameters [4.917317902787792]
ディープラーニングタスクのかなりの部分はエッジコンピューティングシステムで実行される。
我々は, Combinatorial Neural Network Training Algorithm (CNNTrA)を提案する。
CoNNTrAは、MNIST、Iris、ImageNetデータセット上で、第三次学習パラメータでディープラーニングモデルをトレーニングする。
以上の結果から,CNNTrAモデルはメモリを32倍に削減し,バックプロパゲーションモデルと同程度の誤差を有することがわかった。
論文 参考訳(メタデータ) (2020-09-01T16:20:11Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。