論文の概要: Brain-inspired sparse training enables Transformers and LLMs to perform as fully connected
- arxiv url: http://arxiv.org/abs/2501.19107v1
- Date: Fri, 31 Jan 2025 13:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:13.380023
- Title: Brain-inspired sparse training enables Transformers and LLMs to perform as fully connected
- Title(参考訳): 脳にインスパイアされたスパーストレーニングは、トランスフォーマーとLLMが完全に接続された動作を可能にする
- Authors: Yingtao Zhang, Jialin Zhao, Wenjing Wu, Ziheng Liao, Umberto Michieli, Carlo Vittorio Cannistraci,
- Abstract要約: 動的スパーストレーニング(DST)は、ANNの計算要求を削減できるが、ピーク性能をスパシティレベルで維持するのは難しい。
Cannistraci-Hebb training (CHT)は、DSTにおける接続性を高める脳誘発の方法である。
CHTの主な欠点は2つある: (i) 時間複雑性はO(Nd3) - Nノードネットワークサイズ、dノードである。
我々はCHリンク予測器のGPUフレンドリな近似を提案し、計算複雑性をO(N3)に減らし、Aを可能とした。
- 参考スコア(独自算出の注目度): 8.411424745913134
- License:
- Abstract: This study aims to enlarge our current knowledge on application of brain-inspired network science principles for training artificial neural networks (ANNs) with sparse connectivity. Dynamic sparse training (DST) can reduce the computational demands in ANNs, but faces difficulties to keep peak performance at high sparsity levels. The Cannistraci-Hebb training (CHT) is a brain-inspired method for growing connectivity in DST. CHT leverages a gradient-free, topology-driven link regrowth, which has shown ultra-sparse (1% connectivity or lower) advantage across various tasks compared to fully connected networks. Yet, CHT suffers two main drawbacks: (i) its time complexity is O(Nd^3) - N node network size, d node degree - hence it can apply only to ultra-sparse networks. (ii) it selects top link prediction scores, which is inappropriate for the early training epochs, when the network presents unreliable connections. We propose a GPU-friendly approximation of the CH link predictor, which reduces the computational complexity to O(N^3), enabling a fast implementation of CHT in large-scale models. We introduce the Cannistraci-Hebb training soft rule (CHTs), which adopts a strategy for sampling connections in both link removal and regrowth, balancing the exploration and exploitation of network topology. To improve performance, we integrate CHTs with a sigmoid gradual density decay (CHTss). Empirical results show that, using 1% of connections, CHTs outperforms fully connected networks in MLP on visual classification tasks, compressing some networks to < 30% nodes. Using 5% of the connections, CHTss outperforms fully connected networks in two Transformer-based machine translation tasks. Using 30% of the connections, CHTss achieves superior performance compared to other dynamic sparse training methods in language modeling, and it surpasses the fully connected counterpart in zero-shot evaluations.
- Abstract(参考訳): 本研究の目的は、脳にインスパイアされたネットワーク科学の原則を適用して、疎結合でニューラルネットワーク(ANN)を訓練する際の現在の知識を拡大することである。
動的スパーストレーニング(DST)は、ANNの計算要求を低減できるが、ピーク性能を高い間隔で維持するのは難しい。
Cannistraci-Hebb training (CHT)は、DSTにおける接続性を高める脳誘発の方法である。
CHTは勾配のないトポロジ駆動のリンク再成長を利用しており、完全に接続されたネットワークに比べて、様々なタスクにおいて非常に少ない(1%の接続性または低い)利点を示している。
しかし、CHTの主な欠点は2つある。
i) 時間複雑性は、O(Nd^3) - Nノードネットワークサイズ、dノード次数である。
(II)ネットワークが信頼できないコネクションを提示した場合の早期学習のエポックには不適切であるトップリンク予測スコアを選択する。
本稿では,CHリンク予測器のGPUフレンドリな近似を提案し,計算複雑性をO(N^3)に低減し,大規模モデルにおけるCHTの高速実装を実現する。
本稿では,ネットワークトポロジの探索と活用のバランスをとるために,リンク削除と再成長の双方で接続をサンプリングする戦略を採用したCHT(Canistraci-Hebb training soft Rule)を導入する。
性能向上のために,CHTsとSigmoid gradual density decay (CHTss)を統合した。
実験結果によると、コネクションの1%を用いて、CHTは視覚分類タスクにおいて完全に接続されたネットワークよりも優れており、一部のネットワークは30%のノードに圧縮されている。
5%の接続を使って、CHTsは2つのTransformerベースの機械翻訳タスクで完全に接続されたネットワークより優れています。
接続の30%を用いて、CHTsは言語モデリングにおける他の動的スパース訓練手法よりも優れた性能を達成し、ゼロショット評価において完全に接続されたものよりも優れている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hyperspectral Image Classification Based on Faster Residual Multi-branch Spiking Neural Network [6.166929138912052]
本稿では,HSI分類タスクのための漏洩統合火災ニューロンモデルに基づくスパイキングニューラルネットワーク(SNN)を構築する。
SNN-SWMRでは、タイムステップの約84%、トレーニング時間、テストタイムの約63%と70%を同じ精度で削減する必要がある。
論文 参考訳(メタデータ) (2024-09-18T00:51:01Z) - SpikePipe: Accelerated Training of Spiking Neural Networks via Inter-Layer Pipelining and Multiprocessor Scheduling [5.2831841848274985]
トレーニングスパイキングニューラルネットワーク (Training Spiking Neural Networks, SNN) は、従来のニューラルネットワークに比べて計算コストが高い。
本稿では,シストリックアレイベースのプロセッサとマルチプロセッサスケジューリングを用いて,SNNのトレーニングを高速化するための層間パイプライニングを提案する。
論文 参考訳(メタデータ) (2024-06-11T01:43:45Z) - A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。
ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。
結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文 参考訳(メタデータ) (2023-08-28T14:19:13Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Dynamic Hard Pruning of Neural Networks at the Edge of the Internet [11.605253906375424]
動的ハードプルーニング(DynHP)技術は、トレーニング中にネットワークを段階的にプルーニングする。
DynHPは、最終ニューラルネットワークの調整可能なサイズ削減と、トレーニング中のNNメモリ占有率の削減を可能にする。
凍結メモリは、ハードプルーニング戦略による精度劣化を相殺するために、エンファンダイナミックバッチサイズアプローチによって再利用される。
論文 参考訳(メタデータ) (2020-11-17T10:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。