論文の概要: Gradient Flow in Sparse Neural Networks and How Lottery Tickets Win
- arxiv url: http://arxiv.org/abs/2010.03533v2
- Date: Wed, 16 Mar 2022 00:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:38:21.618873
- Title: Gradient Flow in Sparse Neural Networks and How Lottery Tickets Win
- Title(参考訳): スパースニューラルネットワークにおける勾配流れと宝くじの勝敗
- Authors: Utku Evci, Yani A. Ioannou, Cem Keskin, Yann Dauphin
- Abstract要約: NNは、推論のための計算/記憶の一部を使用すれば、高密度NNの一般化と一致し、効率的なトレーニングを可能にする可能性がある。
本稿では,非構造的スパースNNをランダムな初期化からネーティブに訓練すると,一般化が著しく悪化することを示す。
また,Luttery Tickets (LTs) は勾配流を改善せず,その成功は,それらが引き起こす刈り込み解を再学習することにあることも示している。
- 参考スコア(独自算出の注目度): 8.700592446069395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Neural Networks (NNs) can match the generalization of dense NNs using
a fraction of the compute/storage for inference, and also have the potential to
enable efficient training. However, naively training unstructured sparse NNs
from random initialization results in significantly worse generalization, with
the notable exceptions of Lottery Tickets (LTs) and Dynamic Sparse Training
(DST). Through our analysis of gradient flow during training we attempt to
answer: (1) why training unstructured sparse networks from random
initialization performs poorly and; (2) what makes LTs and DST the exceptions?
We show that sparse NNs have poor gradient flow at initialization and
demonstrate the importance of using sparsity-aware initialization. Furthermore,
we find that DST methods significantly improve gradient flow during training
over traditional sparse training methods. Finally, we show that LTs do not
improve gradient flow, rather their success lies in re-learning the pruning
solution they are derived from - however, this comes at the cost of learning
novel solutions.
- Abstract(参考訳): スパースニューラルネットワーク(NN)は、推論のための計算/記憶の一部を使用して、高密度NNの一般化と一致し、効率的なトレーニングを可能にする可能性がある。
しかし,非構造的スパースNNをランダムに初期化することにより,ロータリーティケット (LT) と動的スパーストレーニング (DST) の例外を除いて,非構造的スパークスNNの非構造的トレーニングは,非常に悪い一般化をもたらす。
トレーニング中の勾配流の解析を通じて、(1)ランダム初期化から非構造化スパースネットワークをトレーニングするのはなぜ不十分なのか、(2)LTとDSTが例外となるのか?
スパースNNは初期化時に勾配流が乏しく,空間認識初期化が重要であることを示す。
さらに,DST法は従来のスパース訓練法よりもトレーニング時の勾配流を有意に改善することがわかった。
最後に、ltsは勾配フローを改善していないことを示し、その成功は、彼らが派生したプルーニングソリューションを再学習することにあります。
関連論文リスト
- Approximation and Gradient Descent Training with Neural Networks [0.0]
最近の研究は、ニューラル・タンジェント・カーネル(NTK)最適化の議論を過度にパラメータ化された状態に拡張している。
本稿では,勾配降下法により学習したネットワークの類似性を示す。
論文 参考訳(メタデータ) (2024-05-19T23:04:09Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Exact Gradient Computation for Spiking Neural Networks Through Forward
Propagation [39.33537954568678]
従来のニューラルネットワークに代わるものとして、スパイキングニューラルネットワーク(SNN)が登場している。
本稿では,SNNの正確な勾配を計算できるEmphforward propagation (FP)と呼ばれる新しいトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:28:21Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - Fractional moment-preserving initialization schemes for training deep
neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-25T01:10:01Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。