論文の概要: NeuronSpark: A Spiking Neural Network Language Model with Selective State Space Dynamics
- arxiv url: http://arxiv.org/abs/2603.16148v1
- Date: Tue, 17 Mar 2026 06:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.121345
- Title: NeuronSpark: A Spiking Neural Network Language Model with Selective State Space Dynamics
- Title(参考訳): NeuronSpark: 選択的な状態空間ダイナミクスを備えたスパイクニューラルネットワーク言語モデル
- Authors: Zhengzheng Tang,
- Abstract要約: 本稿では、次トーケン予測と代理勾配を訓練した0.9BパラメータSNN言語モデルであるNeuronSparkを紹介する。
制約された予算の下では、NeuronSpark-0.9Bは3.6の事前訓練損失に達し、SFT後の初期のマルチターン対話動作を示す。
これらの結果は、このスケールでの純粋なSNNアーキテクチャによるエンドツーエンド言語モデリングの実現性を支持する。
- 参考スコア(独自算出の注目度): 0.7614628596146601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We ask whether a pure spiking backbone can learn large-scale language modeling from random initialization, without Transformer distillation. We introduce NeuronSpark, a 0.9B-parameter SNN language model trained with next-token prediction and surrogate gradients. The model combines selective state-space spiking dynamics, leakage-current inter-layer communication, PonderNet adaptive timesteps, fused Triton PLIF kernels, and stabilization techniques (residual centering, lateral-inhibition normalization, and natural-gradient compensation). Under a constrained budget (about 1.4B pretraining tokens and 6.5K SFT steps), NeuronSpark-0.9B reaches 3.6 pretraining loss and shows early multi-turn dialogue behavior after SFT. These results support the feasibility of end-to-end language modeling with a pure SNN architecture at this scale.
- Abstract(参考訳): トランスフォーマー蒸留を使わずに,ランダム初期化から大規模言語モデリングを学習できるかどうかを問う。
本稿では、次トーケン予測と代理勾配を訓練した0.9BパラメータSNN言語モデルであるNeuronSparkを紹介する。
このモデルは、選択的な状態空間スパイキングダイナミクス、リーク電流層間通信、ポンダネット適応タイムステップ、融合したトリトンPLIFカーネル、安定化技術(残留中心化、横方向抑制正規化、自然勾配補償)を組み合わせている。
制約付き予算(約1.4Bの事前トレーニングトークンと6.5KのSFTステップ)の下では、NeuronSpark-0.9Bは3.6の事前トレーニングロスに達し、SFT後の初期のマルチターン対話動作を示す。
これらの結果は、このスケールでの純粋なSNNアーキテクチャによるエンドツーエンド言語モデリングの実現性を支持する。
関連論文リスト
- PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition [12.087823767638788]
音声感情認識(SER)は人間とコンピュータのインタラクションに広く利用されているが、高い計算コストはリソースに制約のあるエッジデバイスの実装を妨げる。
本稿では, スパイキングダイナミクスを用いたパラメータ効率のよいニューロモルフィック適応である, Prompt-Tuned Spiking Neural Networks (PTS-SNN) を提案する。
論文 参考訳(メタデータ) (2026-02-09T03:29:16Z) - Discretized Quadratic Integrate-and-Fire Neuron Model for Deep Spiking Neural Networks [0.08749675983608168]
スパイキングニューラルネットワーク(SNN)は、従来の人工ニューラルネットワークに代わるエネルギー効率の良い代替手段として登場した。
本稿では,高性能深部スパイクニューラルネットに適した準積分ファイア(QIF)ニューロンモデルの最初の離散化を提案する。
論文 参考訳(メタデータ) (2025-10-05T02:30:10Z) - Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - Forecasting the 2016-2017 Central Apennines Earthquake Sequence with a
Neural Point Process [0.0]
本研究では,短期地震活動予測にフレキシブル・ポイント・プロセス・モデルを適用することができるか検討する。
本研究では, 時間的ニューラルモデルを用いて, 震度閾値以上の地震を予測できることを示す。
論文 参考訳(メタデータ) (2023-01-24T12:15:12Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Flexible Transmitter Network [84.90891046882213]
現在のニューラルネットワークはMPモデルに基づいて構築されており、通常はニューロンを他のニューロンから受信した信号の実際の重み付け集約上での活性化関数の実行として定式化する。
本稿では,フレキシブル・トランスミッタ(FT)モデルを提案する。
本稿では、最も一般的な完全接続型フィードフォワードアーキテクチャ上に構築された、フレキシブルトランスミッタネットワーク(FTNet)について述べる。
論文 参考訳(メタデータ) (2020-04-08T06:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。