論文の概要: P-ADMMiRNN: Training RNN with Stable Convergence via An Efficient and
Paralleled ADMM Approach
- arxiv url: http://arxiv.org/abs/2006.05622v3
- Date: Mon, 28 Mar 2022 11:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:20:21.663555
- Title: P-ADMMiRNN: Training RNN with Stable Convergence via An Efficient and
Paralleled ADMM Approach
- Title(参考訳): P-ADMMiRNN: 効率的並列ADMMアプローチによる安定収束学習RNN
- Authors: Yu Tang, Zhigang Kan, Dequan Sun, Jingjing Xiao, Zhiquan Lai, Linbo
Qiao, Dongsheng Li
- Abstract要約: リカレントニューラルネットワーク(RNN)を安定した収束で訓練することは困難であり、勾配の消滅や爆発的な問題を避けることは困難である。
この研究は、ADMMiRNNという新しいフレームワークをRNNの展開形式に基づいて構築し、上記の課題に同時に対処する。
- 参考スコア(独自算出の注目度): 17.603762011446843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is hard to train Recurrent Neural Network (RNN) with stable convergence
and avoid gradient vanishing and exploding problems, as the weights in the
recurrent unit are repeated from iteration to iteration. Moreover, RNN is
sensitive to the initialization of weights and bias, which brings difficulties
in training. The Alternating Direction Method of Multipliers (ADMM) has become
a promising algorithm to train neural networks beyond traditional stochastic
gradient algorithms with the gradient-free features and immunity to
unsatisfactory conditions. However, ADMM could not be applied to train RNN
directly since the state in the recurrent unit is repetitively updated over
timesteps. Therefore, this work builds a new framework named ADMMiRNN upon the
unfolded form of RNN to address the above challenges simultaneously. We also
provide novel update rules and theoretical convergence analysis. We explicitly
specify essential update rules in the iterations of ADMMiRNN with constructed
approximation techniques and solutions to each sub-problem instead of vanilla
ADMM. Numerical experiments are conducted on MNIST, IMDb, and text
classification tasks. ADMMiRNN achieves convergent results and outperforms the
compared baselines. Furthermore, ADMMiRNN trains RNN more stably without
gradient vanishing or exploding than stochastic gradient algorithms. We also
provide a distributed paralleled algorithm regarding ADMMiRNN, named
P-ADMMiRNN, including Synchronous Parallel ADMMiRNN (SP-ADMMiRNN) and
Asynchronous Parallel ADMMiRNN (AP-ADMMiRNN), which is the first to train RNN
with ADMM in an asynchronous parallel manner. The source code is publicly
available.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)を安定した収束で訓練することは困難であり、繰り返しユニットの重みが繰り返し繰り返されるため、勾配の消滅や爆発的な問題を避けることは困難である。
さらに、RNNはウェイトとバイアスの初期化に敏感であり、トレーニングに困難をもたらす。
Alternating Direction Method of Multipliers (ADMM) は、従来の確率勾配アルゴリズムを超えて、勾配のない特徴と不満足な条件に対する免疫をトレーニングするための有望なアルゴリズムとなっている。
しかし、ADMMはリカレントユニットの状態がタイムステップで繰り返し更新されるため、RNNのトレーニングに直接適用することはできない。
したがって、この研究はADMMiRNNという新しいフレームワークをRNNの展開形式に基づいて構築し、上記の課題を同時に解決する。
また,新しい更新ルールと理論的収束解析を提供する。
我々は,バニラADMMの代わりに各サブプロブレムに対して構築された近似手法と解を用いて,ADMMiRNNの繰り返しにおける重要な更新ルールを明示的に規定する。
mnist, imdb, テキスト分類タスクについて数値実験を行った。
ADMMiRNNは収束結果を達成し、比較したベースラインより優れる。
さらに、ADMMiRNNは確率勾配アルゴリズムよりも勾配の消失や爆発なしにRNNを安定的に訓練する。
また,ADMMiRNNの並列化アルゴリズムとして,Synchronous Parallel ADMMiRNN (SP-ADMMiRNN) とAsynchronous Parallel ADMMiRNN (AP-ADMMiRNN) がある。
ソースコードは公開されている。
関連論文リスト
- Adaptive-saturated RNN: Remember more with less instability [2.191505742658975]
本研究では,2つのアプローチ間の飽和度を動的に調整する適応飽和RNN(asRNN)を提案する。
我々の実験は、いくつかの強力な競合相手と比較して、挑戦的なシーケンス学習ベンチマークにおけるasRNNの結果を奨励することを示した。
論文 参考訳(メタデータ) (2023-04-24T02:28:03Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Examining the Robustness of Spiking Neural Networks on Non-ideal
Memristive Crossbars [4.184276171116354]
ニューラルネットワークの低消費電力代替としてスパイキングニューラルネットワーク(SNN)が登場している。
本研究では,SNNの性能に及ぼすクロスバー非理想性と本質性の影響について検討した。
論文 参考訳(メタデータ) (2022-06-20T07:07:41Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - slimTrain -- A Stochastic Approximation Method for Training Separable
Deep Neural Networks [2.4373900721120285]
DeepTrain Network (DNN)は、多くのアプリケーションで高次元神経機能近似器としての成功を示している。
選択した超次元データセットに対する感度を低減したDNNのモデスト最適化手法であるslimTrainを提案する。
論文 参考訳(メタデータ) (2021-09-28T19:31:57Z) - Skip-Connected Self-Recurrent Spiking Neural Networks with Joint
Intrinsic Parameter and Synaptic Weight Training [14.992756670960008]
我々はSkip-Connected Self-Recurrent SNNs (ScSr-SNNs) と呼ばれる新しいタイプのRSNNを提案する。
ScSr-SNNは、最先端BP法で訓練された他のタイプのRSNNと比較して、パフォーマンスを最大2.55%向上させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:27:13Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Frequentist Uncertainty in Recurrent Neural Networks via Blockwise
Influence Functions [121.10450359856242]
リカレントニューラルネットワーク(RNN)は、シーケンシャルおよび時系列データのモデリングに有効である。
RNNにおける既存の不確実性定量化のアプローチは、主にベイズ法に基づいている。
a)モデルトレーニングに干渉せず、その精度を損なうことなく、(b)任意のRNNアーキテクチャに適用し、(c)推定不確かさ間隔に関する理論的カバレッジ保証を提供する。
論文 参考訳(メタデータ) (2020-06-20T22:45:32Z) - MomentumRNN: Integrating Momentum into Recurrent Neural Networks [32.40217829362088]
我々は,MomentumRNNが,RNNのトレーニングにおいて消失する勾配問題を緩和することを示した。
MomentumRNNは、最先端のRNNなど、様々な種類のリカレント細胞に適用できる。
本稿では,Adam や Nesterov などの高度運動量に基づく最適化手法が再起動によって高速化され,MomentumRNN フレームワークに容易に組み込めることを示す。
論文 参考訳(メタデータ) (2020-06-12T03:02:29Z) - BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted
Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。
我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。
リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-01-23T03:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。