Fugu-MT 論文翻訳(概要): SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks

論文の概要: SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks

arxiv url: http://arxiv.org/abs/2302.13939v2
Date: Tue, 28 Feb 2023 06:28:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-01 12:29:30.140726
Title: SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
Title（参考訳）: SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル
Authors: Rui-Jie Zhu, Qihang Zhao, Jason K. Eshraghian
Abstract要約: スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを低減する。生成言語モデルを、純粋なバイナリ、イベント駆動のスパイクアクティベーションユニットで実装する。我々の知る限りでは、これは今までのどの機能的バックプロップ訓練SNNよりも4倍大きい。
参考スコア（独自算出の注目度）: 0.8937905773981701
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As the size of large language models continue to scale, so does the computational resources required to run it. Spiking neural networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, inspired by the RWKV language model, we successfully implement `SpikeGPT', a generative language model with pure binary, event-driven spiking activation units. We train the proposed model on three model variants: 45M, 125M and 260M parameters. To the best of our knowledge, this is 4x larger than any functional backprop-trained SNN to date. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity to linear with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 5x less energy consumption when processed on neuromorphic hardware that can leverage sparse, event-driven activations. Our code implementation is available at https://github.com/ridgerchu/SpikeGPT.
Abstract（参考訳）: 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。スパイキングニューラルネットワーク(SNN)は、モデル推論に関連する計算オーバーヘッドを低減するためにスパースとイベント駆動のアクティベーションを活用するディープラーニングに対するエネルギー効率の高いアプローチとして登場した。多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。本稿では,RWKV言語モデルに触発されて,純粋に二進的イベント駆動のスパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。提案したモデルは,45M,125M,260Mの3種類のモデルで学習する。我々の知る限りでは、これは今までのどの機能的バックプロップ訓練SNNよりも4倍大きい。本研究では,マルチヘッド自己注意を置換するために変圧器ブロックを変更し,2次計算複雑性を線形に削減し,シーケンス長を増加させる。入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。予備実験により,SpikeGPTは,スパース,イベント駆動型アクティベーションを生かしたニューロモルフィックハードウェア上で処理した際のエネルギー消費量を5倍に抑えつつ,試験ベンチマーク上での非スパイキングモデルとの競争力を維持した。私たちのコード実装はhttps://github.com/ridgerchu/spikegptで利用可能です。

関連論文リスト

Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。 CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文参考訳（メタデータ） (2025-10-31T17:58:11Z)
S$^2$NN: Sub-bit Spiking Neural Networks [53.08060832135342]
スパイキングニューラルネットワーク(SNN)は、マシンインテリジェンスにエネルギー効率のよいパラダイムを提供する。最近のバイナリSNNの進歩にもかかわらず、大規模ネットワークではストレージと計算の要求が相当に大きい。 1ビット未満の重みを表すサブビットスパイキングニューラルネットワーク(S$2$NNs)を提案する。
論文参考訳（メタデータ） (2025-09-29T04:17:44Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Implicit Language Models are RNNs: Balancing Parallelization and Expressivity [4.332158627306896]
状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。固定点に収束するまで変換を行う暗黙のSSMを提案する。提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-10T19:59:31Z)
Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文参考訳（メタデータ） (2024-09-21T17:07:42Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Quantized Approximately Orthogonal Recurrent Neural Networks [6.524758376347808]
ORNNにおける重み行列の量子化を探求し、ほぼ直交RNN(QORNN)を量子化する。本稿では,量子化学習(QAT)と計算予測を組み合わせた2つのQORNN学習手法を提案する。最も効率的なモデルは、4ビットの量子化であっても、様々な標準ベンチマークで最先端のフル精度ORNN、LSTM、FastRNNと同様の結果が得られる。
論文参考訳（メタデータ） (2024-02-05T09:59:57Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文参考訳（メタデータ） (2023-09-14T03:36:01Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Training High-Performance Low-Latency Spiking Neural Networks by Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。非分化性のため、SNNを効率的に訓練することは困難である。本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文参考訳（メタデータ） (2022-05-01T12:44:49Z)
A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文参考訳（メタデータ） (2020-09-23T17:12:06Z)
Training Deep Neural Networks with Constrained Learning Parameters [4.917317902787792]
ディープラーニングタスクのかなりの部分はエッジコンピューティングシステムで実行される。我々は, Combinatorial Neural Network Training Algorithm (CNNTrA)を提案する。 CoNNTrAは、MNIST、Iris、ImageNetデータセット上で、第三次学習パラメータでディープラーニングモデルをトレーニングする。以上の結果から,CNNTrAモデルはメモリを32倍に削減し,バックプロパゲーションモデルと同程度の誤差を有することがわかった。
論文参考訳（メタデータ） (2020-09-01T16:20:11Z)
Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文参考訳（メタデータ） (2020-04-04T14:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。