論文の概要: Brain network science modelling of sparse neural networks enables Transformers and LLMs to perform as fully connected
- arxiv url: http://arxiv.org/abs/2501.19107v2
- Date: Mon, 02 Jun 2025 09:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.025083
- Title: Brain network science modelling of sparse neural networks enables Transformers and LLMs to perform as fully connected
- Title(参考訳): スパースニューラルネットワークの脳ネットワーク科学モデリングにより、トランスフォーマーとLLMが完全に接続された動作を実現できる
- Authors: Yingtao Zhang, Diego Cerretti, Jialin Zhao, Wenjing Wu, Ziheng Liao, Umberto Michieli, Carlo Vittorio Cannistraci,
- Abstract要約: 動的スパーストレーニング(DST)は、ANNの計算要求を削減できるが、ピーク性能を高いスパシティレベルに維持することは困難である。
Cannistraci-Hebb training (CHT)は、DSTにおける接続性を高める脳誘発の方法である。
CHTの主な欠点は2つある: (i) 時間複雑性は$O(Nd3)$ - Nノードネットワークサイズ、dノード度 - 超スパースなレシエーションに制限されている。
我々はCHリンク予測のGPUフレンドリな行列ベースの近似を導入し、複雑さを$O(N3)$に減らした。
- 参考スコア(独自算出の注目度): 8.009769102084839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic sparse training (DST) can reduce the computational demands in ANNs, but faces difficulties in keeping peak performance at high sparsity levels. The Cannistraci-Hebb training (CHT) is a brain-inspired method for growing connectivity in DST. CHT leverages a gradient-free, topology-driven link regrowth, which has shown ultra-sparse (less than 1% connectivity) advantage across various tasks compared to fully connected networks. Yet, CHT suffers two main drawbacks: (i) its time complexity is $O(Nd^3)$ - N node network size, d node degree - restricting it to ultra-sparse regimes. (ii) it selects top link prediction scores, which is inappropriate for the early training epochs, when the network presents unreliable connections. Here, we design the first brain-inspired network model - termed bipartite receptive field (BRF) - to initialize the connectivity of sparse artificial neural networks. We further introduce a GPU-friendly matrix-based approximation of CH link prediction, reducing complexity to $O(N^3)$. We introduce the Cannistraci-Hebb training soft rule (CHTs), which adopts a flexible strategy for sampling connections in both link removal and regrowth, balancing the exploration and exploitation of network topology. Additionally, we integrate CHTs with a sigmoid gradual density decay (CHTss). Empirical results show that BRF offers performance advantages over previous network science models. Using 1% of connections, CHTs outperforms fully connected networks in MLP architectures on image classification tasks, compressing some networks to less than 30% of the nodes. Using 5% of the connections, CHTss outperforms fully connected networks in two Transformer-based machine translation tasks. Finally, at 30% connectivity, both CHTs and CHTss outperform other DST methods in language modeling and even exceed fully connected baselines in zero-shot tasks.
- Abstract(参考訳): 動的スパーストレーニング(DST)は、ANNの計算要求を削減できるが、ピーク性能を高いスパシティレベルに維持することは困難である。
Cannistraci-Hebb training (CHT)は、DSTにおける接続性を高める脳誘発の方法である。
CHTは勾配のないトポロジ駆動のリンク再成長を利用しており、完全に接続されたネットワークと比較して、様々なタスクにおいて超低速(1%未満の接続性)の利点を示している。
しかし、CHTの主な欠点は2つある。
(i)時間複雑性は$O(Nd^3)$ - Nノードネットワークサイズ、dノード度で、超スパースなレギュレーションに制限される。
(II)ネットワークが信頼できないコネクションを提示した場合の早期学習のエポックには不適切であるトップリンク予測スコアを選択する。
ここでは、スパースニューラルネットワークの接続を初期化するために、脳にインスパイアされた最初のネットワークモデル、BRF(Bipartite Receptive Field)を設計する。
さらに、CHリンク予測のGPUフレンドリな行列ベースの近似を導入し、複雑さを$O(N^3)$に減らした。
本稿では,ネットワークトポロジの探索と活用のバランスをとることにより,リンクの除去と再成長の両面から接続をサンプリングするフレキシブルな戦略を採用したCannistraci-Hebbトレーニングソフトルール(CHTs)を提案する。
さらに,CHTsとSigmoid gradual density decay (CHTss)を統合した。
実証実験の結果、BRFは従来のネットワーク科学モデルよりも性能上の優位性を示している。
コネクションの1%を使用して、CHTは画像分類タスクにおいてMLPアーキテクチャで完全に接続されたネットワークより優れており、一部のネットワークは30%未満に圧縮されている。
5%の接続を使って、CHTsは2つのTransformerベースの機械翻訳タスクで完全に接続されたネットワークより優れています。
最後に、30%の接続でCHTとCHTsは、言語モデリングにおける他のDSTメソッドよりも優れており、ゼロショットタスクにおいて完全に接続されたベースラインを超えています。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hyperspectral Image Classification Based on Faster Residual Multi-branch Spiking Neural Network [6.166929138912052]
本稿では,HSI分類タスクのための漏洩統合火災ニューロンモデルに基づくスパイキングニューラルネットワーク(SNN)を構築する。
SNN-SWMRでは、タイムステップの約84%、トレーニング時間、テストタイムの約63%と70%を同じ精度で削減する必要がある。
論文 参考訳(メタデータ) (2024-09-18T00:51:01Z) - SpikePipe: Accelerated Training of Spiking Neural Networks via Inter-Layer Pipelining and Multiprocessor Scheduling [5.2831841848274985]
トレーニングスパイキングニューラルネットワーク (Training Spiking Neural Networks, SNN) は、従来のニューラルネットワークに比べて計算コストが高い。
本稿では,シストリックアレイベースのプロセッサとマルチプロセッサスケジューリングを用いて,SNNのトレーニングを高速化するための層間パイプライニングを提案する。
論文 参考訳(メタデータ) (2024-06-11T01:43:45Z) - A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。
ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。
結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文 参考訳(メタデータ) (2023-08-28T14:19:13Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Dynamic Hard Pruning of Neural Networks at the Edge of the Internet [11.605253906375424]
動的ハードプルーニング(DynHP)技術は、トレーニング中にネットワークを段階的にプルーニングする。
DynHPは、最終ニューラルネットワークの調整可能なサイズ削減と、トレーニング中のNNメモリ占有率の削減を可能にする。
凍結メモリは、ハードプルーニング戦略による精度劣化を相殺するために、エンファンダイナミックバッチサイズアプローチによって再利用される。
論文 参考訳(メタデータ) (2020-11-17T10:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。