論文の概要: Structured in Space, Randomized in Time: Leveraging Dropout in RNNs for
Efficient Training
- arxiv url: http://arxiv.org/abs/2106.12089v1
- Date: Tue, 22 Jun 2021 22:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 01:44:16.758011
- Title: Structured in Space, Randomized in Time: Leveraging Dropout in RNNs for
Efficient Training
- Title(参考訳): 空間的構造と時間的ランダム化:効率的なトレーニングにrnnのドロップアウトを活用する
- Authors: Anup Sarma, Sonali Singh, Huaipan Jiang, Rui Zhang, Mahmut T Kandemir
and Chita R Das
- Abstract要約: 我々は,同じ物理ニューロンの集合をバッチ内にドロップアウトし,列(ロー)レベルの隠された状態空間を作り出すことにより,ドロップアウトパターンを構築することを提案する。
PTBデータセットに基づく言語モデリング、IWSLT De-EnデータセットとEn-Viデータセットを用いたOpenNMTベースの機械翻訳、エンティティ認識シーケンスラベリングの3つの代表的なNLPタスクについて実験を行った。
- 参考スコア(独自算出の注目度): 18.521882534906972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent Neural Networks (RNNs), more specifically their Long Short-Term
Memory (LSTM) variants, have been widely used as a deep learning tool for
tackling sequence-based learning tasks in text and speech. Training of such
LSTM applications is computationally intensive due to the recurrent nature of
hidden state computation that repeats for each time step. While sparsity in
Deep Neural Nets has been widely seen as an opportunity for reducing
computation time in both training and inference phases, the usage of non-ReLU
activation in LSTM RNNs renders the opportunities for such dynamic sparsity
associated with neuron activation and gradient values to be limited or
non-existent. In this work, we identify dropout induced sparsity for LSTMs as a
suitable mode of computation reduction. Dropout is a widely used regularization
mechanism, which randomly drops computed neuron values during each iteration of
training. We propose to structure dropout patterns, by dropping out the same
set of physical neurons within a batch, resulting in column (row) level hidden
state sparsity, which are well amenable to computation reduction at run-time in
general-purpose SIMD hardware as well as systolic arrays. We conduct our
experiments for three representative NLP tasks: language modelling on the PTB
dataset, OpenNMT based machine translation using the IWSLT De-En and En-Vi
datasets, and named entity recognition sequence labelling using the CoNLL-2003
shared task. We demonstrate that our proposed approach can be used to translate
dropout-based computation reduction into reduced training time, with
improvement ranging from 1.23x to 1.64x, without sacrificing the target metric.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)、特にLong Short-Term Memory(LSTM)は、テキストや音声でシーケンスベースの学習タスクを扱うためのディープラーニングツールとして広く使われている。
このようなLSTMアプリケーションのトレーニングは、時間ステップ毎に繰り返される隠れ状態計算の繰り返しの性質のため、計算集約的である。
Deep Neural Netsのスパーシリティは、トレーニングと推論フェーズの両方において計算時間を短縮する機会として広く見なされているが、LSTM RNNにおける非ReLUアクティベーションの使用は、ニューロンのアクティベーションと勾配値の制限あるいは存在しないようなダイナミックなスパシリティの機会を与える。
そこで本研究では,LSTMのドロップアウト誘起空間を計算量削減の適切な方法として同定する。
ドロップアウトは広く使われている正規化機構であり、トレーニングの反復毎に計算されたニューロン値をランダムに減少させる。
汎用SIMDハードウェアおよびシストリックアレイにおいて,実行時の計算量削減に優れたカラム(ロー)レベルの隠れ状態空間を,同一の物理ニューロン群をバッチ内にドロップアウトすることで,ドロップアウトパターンを構築することを提案する。
PTBデータセットに基づく言語モデリング、IWSLT De-EnデータセットとEn-Viデータセットを用いたOpenNMTベースの機械翻訳、CoNLL-2003共有タスクを用いたエンティティ認識シーケンスラベリングの3つの代表的NLPタスクについて実験を行った。
提案手法は, 目標距離を犠牲にすることなく, 1.23x から 1.64x までの改善を図りながら, ドロップアウトに基づく計算量削減をトレーニング時間を短縮できることを示す。
関連論文リスト
- LLS: Local Learning Rule for Deep Neural Networks Inspired by Neural Activity Synchronization [6.738409533239947]
従来のバックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、計算複雑性とエネルギー消費の観点からの課題を提示している。
脳内で観察される神経活動同期現象(LLS)にインスパイアされた新しい局所学習規則を提案する。
LLSは、最大300倍の乗算累積(MAC)演算を減らし、BPのメモリ要求の半分で同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-24T18:24:24Z) - Accelerating SNN Training with Stochastic Parallelizable Spiking Neurons [1.7056768055368383]
スパイキングニューラルネットワーク(SNN)は、特にニューロモルフィックハードウェアにおいて、少ないエネルギーを使用しながら特徴を学習することができる。
深層学習において最も広く用いられるニューロンは、時間と火災(LIF)ニューロンである。
論文 参考訳(メタデータ) (2023-06-22T04:25:27Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Oscillatory Fourier Neural Network: A Compact and Efficient Architecture
for Sequential Processing [16.69710555668727]
本稿では,コサイン活性化と時系列処理のための時間変化成分を有する新しいニューロンモデルを提案する。
提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。
IMDBデータセットの感情分析に提案されたモデルを適用すると、5時間以内のテスト精度は89.4%に達する。
論文 参考訳(メタデータ) (2021-09-14T19:08:07Z) - Spiking Neural Networks with Improved Inherent Recurrence Dynamics for
Sequential Learning [6.417011237981518]
漏れた統合と発火(LIF)ニューロンを持つニューラルネットワーク(SNN)は、イベント駆動方式で操作できる。
我々は,SNNを逐次的なタスクのために訓練し,LIFニューロンのネットワークへの修正を提案する。
そこで我々は,提案するSNNのトレーニング手法を開発し,本質的な再帰ダイナミクスを改良した。
論文 参考訳(メタデータ) (2021-09-04T17:13:28Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。