論文の概要: SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms
- arxiv url: http://arxiv.org/abs/2406.03287v1
- Date: Wed, 5 Jun 2024 13:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:01:08.367454
- Title: SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms
- Title(参考訳): SpikeLM: Elastic Bi-Spikingメカニズムによる汎用スパイク駆動型言語モデリングを目指して
- Authors: Xingrun Xing, Zheng Zhang, Ziyi Ni, Shitao Xiao, Yiming Ju, Siqi Fan, Yequan Wang, Jiajun Zhang, Guoqi Li,
- Abstract要約: バイオインスパイアされたスパイクニューラルネットワーク(SNN)は、生物学的可視性、事象駆動性、バイナリアクティベーションの利点がある。
大規模言語モデルは有望な一般化能力を示しており、より一般的なスパイク駆動モデルを探究する上で価値のある問題である。
本研究は、識別的および生成的タスクを含む、汎用言語タスクのための最初の完全なスパイク機構を提案する。
- 参考スコア(独自算出の注目度): 30.825695629006628
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Towards energy-efficient artificial intelligence similar to the human brain, the bio-inspired spiking neural networks (SNNs) have advantages of biological plausibility, event-driven sparsity, and binary activation. Recently, large-scale language models exhibit promising generalization capability, making it a valuable issue to explore more general spike-driven models. However, the binary spikes in existing SNNs fail to encode adequate semantic information, placing technological challenges for generalization. This work proposes the first fully spiking mechanism for general language tasks, including both discriminative and generative ones. Different from previous spikes with {0,1} levels, we propose a more general spike formulation with bi-directional, elastic amplitude, and elastic frequency encoding, while still maintaining the addition nature of SNNs. In a single time step, the spike is enhanced by direction and amplitude information; in spike frequency, a strategy to control spike firing rate is well designed. We plug this elastic bi-spiking mechanism in language modeling, named SpikeLM. It is the first time to handle general language tasks with fully spike-driven models, which achieve much higher accuracy than previously possible. SpikeLM also greatly bridges the performance gap between SNNs and ANNs in language modeling. Our code is available at https://github.com/Xingrun-Xing/SpikeLM.
- Abstract(参考訳): ヒトの脳に似たエネルギー効率の高い人工知能を目指して、バイオインスパイアされたスパイクニューラルネットワーク(SNN)は、生物学的可視性、事象駆動性、バイナリアクティベーションの利点がある。
近年,大規模言語モデルは有望な一般化能力を示しており,より一般的なスパイク駆動モデルを探究する上で重要な問題となっている。
しかし、既存のSNNのバイナリスパイクは適切な意味情報をエンコードできず、一般化の技術的課題を負う。
本研究は、識別的および生成的タスクを含む、汎用言語タスクのための最初の完全なスパイク機構を提案する。
0,1} レベルの以前のスパイクと異なり、SNN の付加特性を維持しつつ、双方向、弾性振幅、弾性周波数符号化によるより一般的なスパイク定式化を提案する。
単一の時間ステップでは、スパイクは方向および振幅情報によって強化され、スパイク周波数では、スパイク発射率を制御するための戦略がよく設計されている。
この弾性バイスポーキング機構を言語モデリングにプラグインし,SpikeLMと名づけた。
完全なスパイク駆動モデルで汎用言語タスクを処理するのはこれが初めてであり、これまでよりもはるかに高い精度を達成している。
SpikeLMはまた、言語モデリングにおけるSNNとANNのパフォーマンスギャップを大いに橋渡ししている。
私たちのコードはhttps://github.com/Xingrun-Xing/SpikeLM.comで公開されています。
関連論文リスト
- SkipSNN: Efficiently Classifying Spike Trains with Event-attention [29.639889737632842]
スパイクトレインの分類は最近、機械学習コミュニティにおいて重要なトピックとなっている。
有望なモデルは、関心の信号が現れる場合にのみ集中的な計算を行うという設計原則に従うべきである。
本稿では,SNNが本来のスパイク列車の有用な信号に動的にハイライトできるイベントアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-10-29T03:19:25Z) - SpikeVoice: High-Quality Text-to-Speech Via Efficient Spiking Neural Network [21.487450282438125]
スパイキングニューラルネットワーク(SNN)は、視覚、自然言語、音声理解タスクにおいて、その効果と効率を実証している。
SNNを介して高品質のテキスト音声(TTS)を実行するtextbfSpikeVoiceを設計し、SNNの「話す」可能性を探る。
論文 参考訳(メタデータ) (2024-07-17T15:22:52Z) - SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking [43.275370104552344]
数十億のパラメータを持つ最近の大規模言語モデル(LLM)は、様々な現実世界のアプリケーションにまたがってパフォーマンスを高めている。
人間の脳は、同様の数のパラメータを持つLSMに比べて、エネルギー効率が著しく高い。
本稿では,SpykeLLM と呼ばれる最近の LLM として,最初のスパイク大言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T08:37:17Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - Language Modeling on a SpiNNaker 2 Neuromorphic Chip [2.760675104404914]
ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。
ニューロモルフィックデバイス上での言語モデルの初の実装を実演する。
論文 参考訳(メタデータ) (2023-12-14T16:16:35Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Adversarial Training for Large Neural Language Models [107.84290922621163]
対戦型事前学習は、一般化と堅牢性の両方を改善することができることを示す。
ALUMは、対向損失を最大化する埋め込み空間に摂動を適用することで、トレーニング目標を正規化する。
ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
論文 参考訳(メタデータ) (2020-04-20T00:07:18Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。