論文の概要: Weight Sparsity Complements Activity Sparsity in Neuromorphic Language Models
- arxiv url: http://arxiv.org/abs/2405.00433v1
- Date: Wed, 1 May 2024 10:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:57:39.046384
- Title: Weight Sparsity Complements Activity Sparsity in Neuromorphic Language Models
- Title(参考訳): ニューロモーフィック言語モデルにおける重み空間補完活動空間
- Authors: Rishav Mukherji, Mark Schöne, Khaleelulla Khan Nazeer, Christian Mayr, David Kappel, Anand Subramoney,
- Abstract要約: イベントベースニューラルネットワーク(SNN)は自然に活動の疎結合を示し、重みを刈り取ることで接続性を疎結合化するために多くの方法が存在する。
本研究では,重み付けと活動空間の相乗効果が言語モデリングタスクに及ぼす影響について検討する。
この結果から,疎結合なイベントベースニューラルネットワークは効率的かつ効率的なシーケンスモデリングの候補となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 3.0753589871055107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activity and parameter sparsity are two standard methods of making neural networks computationally more efficient. Event-based architectures such as spiking neural networks (SNNs) naturally exhibit activity sparsity, and many methods exist to sparsify their connectivity by pruning weights. While the effect of weight pruning on feed-forward SNNs has been previously studied for computer vision tasks, the effects of pruning for complex sequence tasks like language modeling are less well studied since SNNs have traditionally struggled to achieve meaningful performance on these tasks. Using a recently published SNN-like architecture that works well on small-scale language modeling, we study the effects of weight pruning when combined with activity sparsity. Specifically, we study the trade-off between the multiplicative efficiency gains the combination affords and its effect on task performance for language modeling. To dissect the effects of the two sparsities, we conduct a comparative analysis between densely activated models and sparsely activated event-based models across varying degrees of connectivity sparsity. We demonstrate that sparse activity and sparse connectivity complement each other without a proportional drop in task performance for an event-based neural network trained on the Penn Treebank and WikiText-2 language modeling datasets. Our results suggest sparsely connected event-based neural networks are promising candidates for effective and efficient sequence modeling.
- Abstract(参考訳): アクティビティとパラメータの空間性は、ニューラルネットワークをより効率的にするための2つの標準的な方法である。
スパイキングニューラルネットワーク(SNN)のようなイベントベースのアーキテクチャは、自然に活動の空間性を示し、ウェイトを刈り取ることで接続性を疎結合化するために多くの方法が存在する。
フィードフォワードSNNに対するウェイトプルーニングの効果は、これまでコンピュータビジョンタスクにおいて研究されてきたが、言語モデリングのような複雑なシーケンスタスクに対するプルーニングの効果は、伝統的にこれらのタスクにおいて有意義なパフォーマンスを達成するのに苦労してきたため、あまり研究されていない。
最近発表されたSNNのようなアーキテクチャは、小規模な言語モデリングでうまく機能するので、活動空間と組み合わせることで重み付けの効果について検討する。
具体的には,乗算効率のトレードオフが,言語モデリングのタスク性能に与える影響について検討する。
この2つの空間の影響を判別するために,密に活性化されたモデルと疎に活性化されたイベントベースモデルの比較分析を行った。
我々は、Penn TreebankとWikiText-2言語モデリングデータセットに基づいてトレーニングされたイベントベースニューラルネットワークにおいて、タスク性能が比例的に低下することなく、スパースアクティビティとスパース接続が相互に補完することを示した。
この結果から,疎結合なイベントベースニューラルネットワークは効率的かつ効率的なシーケンスモデリングの候補となる可能性が示唆された。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models [35.10729451729596]
自然言語処理(NLP)におけるトランスフォーマーベース言語モデルの普及
しかし、高価なトレーニングや推論は、その適用性に重大な障害となる。
脳神経ネットワークにインスパイアされた我々は、ネットワークトポロジーのレンズを通してスパーシティアプローチを探索する。
論文 参考訳(メタデータ) (2024-02-28T22:21:47Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Activity Sparsity Complements Weight Sparsity for Efficient RNN
Inference [2.0822643340897273]
本研究では、繰り返しニューラルネットワークモデルにおいて、活動空間がパラメータ空間と乗算的に構成可能であることを示す。
私たちはPenn Treebank言語モデリングタスクで60ドル以下の難易度を維持しながら、最大20ドルまで計算の削減を実現しています。
論文 参考訳(メタデータ) (2023-11-13T08:18:44Z) - SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:57:17Z) - On the Intrinsic Structures of Spiking Neural Networks [66.57589494713515]
近年、時間依存データやイベント駆動データを扱う大きな可能性から、SNNへの関心が高まっている。
スパイキング計算における本質的な構造の影響を総合的に調査する研究が数多く行われている。
この研究はSNNの本質的な構造を深く掘り下げ、SNNの表現性への影響を解明する。
論文 参考訳(メタデータ) (2022-06-21T09:42:30Z) - Ensemble plasticity and network adaptability in SNNs [0.726437825413781]
人工スパイキングニューラルネットワーク(ASNN)は、離散的なイベントベース(スパイク)計算のため、より優れた情報処理効率を約束する。
本研究では,スパイク活動のみを用いたエントロピーとネットワークアクティベーションに基づく新しいアンサンブル学習手法を提案する。
その結果, スパイクレートの低いニューロンクラスターを刈り取ると, 一般化や性能の低下が予想されることがわかった。
論文 参考訳(メタデータ) (2022-03-11T01:14:51Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z) - Adaptive Explainable Neural Networks (AxNNs) [8.949704905866888]
我々は、予測性能とモデル解釈可能性の両目標を達成するために、Adaptive Explainable Neural Networks (AxNN) と呼ばれる新しいフレームワークを開発した。
予測性能向上のために,一般化された付加的モデルネットワークと付加的インデックスモデルからなる構造化ニューラルネットワークを構築した。
本稿では,AxNNの結果を主効果と高次相互作用効果に分解する方法を示す。
論文 参考訳(メタデータ) (2020-04-05T23:40:57Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。