論文の概要: SpikingBERT: Distilling BERT to Train Spiking Language Models Using
Implicit Differentiation
- arxiv url: http://arxiv.org/abs/2308.10873v2
- Date: Fri, 9 Feb 2024 15:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:44:33.975598
- Title: SpikingBERT: Distilling BERT to Train Spiking Language Models Using
Implicit Differentiation
- Title(参考訳): SpikingBERT:不特定微分を用いたスパイキング言語モデルのトレーニングのためのBERTの蒸留
- Authors: Malyaban Bal, Abhronil Sengupta
- Abstract要約: 大型言語モデル(LLMs)は、ヒト脳よりもニューロンとシナプスが桁違いに少ない。
本稿では,脳内のシナプス情報の流れから動機づけを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスパイアされたスパイク言語モデルを提案する。
我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。
- 参考スコア(独自算出の注目度): 2.3361887733755897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language Models (LLMs), though growing exceedingly powerful, comprises
of orders of magnitude less neurons and synapses than the human brain. However,
it requires significantly more power/energy to operate. In this work, we
propose a novel bio-inspired spiking language model (LM) which aims to reduce
the computational cost of conventional LMs by drawing motivation from the
synaptic information flow in the brain. In this paper, we demonstrate a
framework that leverages the average spiking rate of neurons at equilibrium to
train a neuromorphic spiking LM using implicit differentiation technique,
thereby overcoming the non-differentiability problem of spiking neural network
(SNN) based algorithms without using any type of surrogate gradient. The
steady-state convergence of the spiking neurons also allows us to design a
spiking attention mechanism, which is critical in developing a scalable spiking
LM. Moreover, the convergence of average spiking rate of neurons at equilibrium
is utilized to develop a novel ANN-SNN knowledge distillation based technique
wherein we use a pre-trained BERT model as "teacher" to train our "student"
spiking architecture. While the primary architecture proposed in this paper is
motivated by BERT, the technique can be potentially extended to different kinds
of LLMs. Our work is the first one to demonstrate the performance of an
operational spiking LM architecture on multiple different tasks in the GLUE
benchmark.
- Abstract(参考訳): 大規模言語モデル(llm)は非常に強力に成長しているが、人間の脳よりもニューロンやシナプスは桁違いに少ない。
しかし、運用にはエネルギーとエネルギーがかなり必要である。
本研究では,脳内のシナプス情報の流れからモチベーションを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスピレーションスパイキング言語モデルを提案する。
本稿では,ニューロンの平衡における平均スパイク速度を利用して,暗黙の微分法を用いてニューロモルフィックスパイキングLMを訓練し,サロゲート勾配を使わずにスパイキングニューラルネットワーク(SNN)に基づくアルゴリズムの非微分可能性問題を克服する枠組みを示す。
スパイキングニューロンの定常収束はまた、スケーラブルなスパイキングLMの開発において重要なスパイキングアテンション機構を設計することができる。
さらに、平衡時のニューロンの平均スパイク速度の収束を利用して、トレーニング済みBERTモデルを「教師」として使用し、「学生」スパイクアーキテクチャを訓練する新しいANN-SNN知識蒸留技術を開発した。
本論文で提案するアーキテクチャはBERTをモチベーションとしているが,多種多様な LLM に拡張できる可能性がある。
我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。
関連論文リスト
- SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models [19.04709216497077]
長いシーケンス学習のためのスパイキング状態空間モデル(SpikingSSM)を開発した。
樹状ニューロン構造にインスパイアされた我々は、神経力学を元のSSMブロックと階層的に統合する。
そこで本研究では,リセット後の膜電位を正確に予測し,学習可能なしきい値に適合する軽量サロゲート動的ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T09:35:49Z) - Context Gating in Spiking Neural Networks: Achieving Lifelong Learning through Integration of Local and Global Plasticity [20.589970453110208]
ヒトは前頭前皮質(PFC)の文脈ゲーティング機構を通じて、最小の相互干渉で連続して複数のタスクを学習する
本研究では,生涯学習のための局所可塑性規則(CG-SNN)によって訓練された文脈ゲーティングを用いたSNNを提案する。
実験により,提案モデルは過去の学習経験を維持する上で有効であり,生涯学習における他の方法よりも優れたタスク選択性を有することが示された。
論文 参考訳(メタデータ) (2024-06-04T01:35:35Z) - Exploring Extreme Quantization in Spiking Language Models [7.986844499514244]
本稿では,新しい2進/3進(1/1.58ビット)スパイクLMアーキテクチャの開発を提案する。
提案手法は,1/1.58ビットの1次スパイキングLMとして大きく進歩した。
論文 参考訳(メタデータ) (2024-05-04T03:00:23Z) - Single Neuromorphic Memristor closely Emulates Multiple Synaptic
Mechanisms for Energy Efficient Neural Networks [71.79257685917058]
我々はこれらのシナプス機能を本質的にエミュレートするSrTiO3に基づく膜状ナノデバイスを実証する。
これらのメムリスタは、安定かつエネルギー効率の良い運転を可能にする非定常低導電系で機能する。
論文 参考訳(メタデータ) (2024-02-26T15:01:54Z) - Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - SpikingJelly: An open-source machine learning infrastructure platform
for spike-based intelligence [51.6943465041708]
スパイキングニューラルネットワーク(SNN)は、高エネルギー効率のニューロモルフィックチップに脳にインスパイアされたインテリジェンスを実現することを目的としている。
我々は、ニューロモルフィックデータセットの事前処理、深層SNNの構築、パラメータの最適化、およびニューロモルフィックチップへのSNNのデプロイのためのフルスタックツールキットをコントリビュートする。
論文 参考訳(メタデータ) (2023-10-25T13:15:17Z) - SPIDE: A Purely Spike-based Method for Training Feedback Spiking Neural
Networks [56.35403810762512]
イベントベースの計算を伴うスパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアにおけるエネルギー効率の高い応用のために、脳にインスパイアされたモデルを約束している。
本研究では,最近提案されたトレーニング手法を拡張した平衡状態(SPIDE)に対するスパイクに基づく暗黙差分法について検討した。
論文 参考訳(メタデータ) (2023-02-01T04:22:59Z) - The Mori-Zwanzig formulation of deep learning [3.2851683371946754]
我々は,可逆統計力学の森・ズワンジグ形式に基づく新しいディープラーニングの定式化を開発する。
新しい方程式は、ディープニューラルネットワークの新しい効果的なパラメータ化を開発する出発点として使用できる。
論文 参考訳(メタデータ) (2022-09-12T18:44:50Z) - Ensemble plasticity and network adaptability in SNNs [0.726437825413781]
人工スパイキングニューラルネットワーク(ASNN)は、離散的なイベントベース(スパイク)計算のため、より優れた情報処理効率を約束する。
本研究では,スパイク活動のみを用いたエントロピーとネットワークアクティベーションに基づく新しいアンサンブル学習手法を提案する。
その結果, スパイクレートの低いニューロンクラスターを刈り取ると, 一般化や性能の低下が予想されることがわかった。
論文 参考訳(メタデータ) (2022-03-11T01:14:51Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。