論文の概要: Selfish Sparse RNN Training
- arxiv url: http://arxiv.org/abs/2101.09048v2
- Date: Thu, 28 Jan 2021 16:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:30:08.223700
- Title: Selfish Sparse RNN Training
- Title(参考訳): 自家用スパースRNNトレーニング
- Authors: Shiwei Liu, Decebal Constantin Mocanu, Yulong Pei, Mykola Pechenizkiy
- Abstract要約: 本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
- 参考スコア(独自算出の注目度): 13.165729746380816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse neural networks have been widely applied to reduce the necessary
resource requirements to train and deploy over-parameterized deep neural
networks. For inference acceleration, methods that induce sparsity from a
pre-trained dense network (dense-to-sparse) work effectively. Recently, dynamic
sparse training (DST) has been proposed to train sparse neural networks without
pre-training a dense network (sparse-to-sparse), so that the training process
can also be accelerated. However, previous sparse-to-sparse methods mainly
focus on Multilayer Perceptron Networks (MLPs) and Convolutional Neural
Networks (CNNs), failing to match the performance of dense-to-sparse methods in
Recurrent Neural Networks (RNNs) setting. In this paper, we propose an approach
to train sparse RNNs with a fixed parameter count in one single run, without
compromising performance. During training, we allow RNN layers to have a
non-uniform redistribution across cell gates for a better regularization.
Further, we introduce SNT-ASGD, a variant of the averaged stochastic gradient
optimizer, which significantly improves the performance of all sparse training
methods for RNNs. Using these strategies, we achieve state-of-the-art sparse
training results with various types of RNNs on Penn TreeBank and Wikitext-2
datasets.
- Abstract(参考訳): スパースニューラルネットワークは、オーバーパラメータ化されたディープニューラルネットワークのトレーニングとデプロイに必要なリソース要件を減らすために広く応用されている。
推論加速には、事前訓練された高密度ネットワーク(dense-to-sparse)から空間性を誘導する手法が効果的に働く。
近年,密度の高いネットワーク(スパースからスパース)を事前学習することなくスパースニューラルネットワークをトレーニングするために動的スパーストレーニング(dst)が提案されている。
しかし,従来のスパース・ツー・スパース法は主にマルチレイヤ・パーセプトロン・ネットワーク(MLP)と畳み込みニューラルネットワーク(CNN)に重点を置いており,リカレント・ニューラルネットワーク(RNN)設定における密分・スパース法の性能にマッチしない。
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
トレーニング中、より良い正規化のために、rnn層がセルゲートを横断する非一様再分配を許可する。
さらに,SNT-ASGDを導入することで,RNNのスパース学習手法の性能を大幅に向上させる。
これらの戦略を用いて,penn treebank と wikitext-2 データセット上の様々なタイプの rnn を用いて,最先端のスパーストレーニング結果を得る。
関連論文リスト
- Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Navigating Local Minima in Quantized Spiking Neural Networks [3.1351527202068445]
深層学習(DL)アルゴリズムの超効率的な実装においては,スパイキングと量子ニューラルネットワーク(NN)が極めて重要になっている。
これらのネットワークは、ハードしきい値を適用する際の勾配信号の欠如により、エラーのバックプロパゲーションを使用してトレーニングする際の課題に直面している。
本稿では,コサインアニールLRスケジュールと重み非依存適応モーメント推定を併用したシステム評価を行った。
論文 参考訳(メタデータ) (2022-02-15T06:42:25Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Spiking Generative Adversarial Networks With a Neural Network
Discriminator: Local Training, Bayesian Models, and Continual Meta-Learning [31.78005607111787]
スパイキングパターンを再現するためにニューラルネットワークを訓練することは、ニューロモルフィックコンピューティングにおける中心的な問題である。
この研究は、個々のスパイキング信号ではなく、スパイキング信号にマッチするようにSNNを訓練することを提案する。
論文 参考訳(メタデータ) (2021-11-02T17:20:54Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Encoding the latent posterior of Bayesian Neural Networks for
uncertainty quantification [10.727102755903616]
我々は,複雑なコンピュータビジョンアーキテクチャに適した効率的な深部BNNを目指している。
可変オートエンコーダ(VAE)を利用して、各ネットワーク層におけるパラメータの相互作用と潜在分布を学習する。
我々のアプローチであるLatent-Posterior BNN(LP-BNN)は、最近のBatchEnsemble法と互換性があり、高い効率(トレーニングとテストの両方における計算とメモリ)のアンサンブルをもたらす。
論文 参考訳(メタデータ) (2020-12-04T19:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。