論文の概要: Resurrecting Recurrent Neural Networks for Long Sequences
- arxiv url: http://arxiv.org/abs/2303.06349v1
- Date: Sat, 11 Mar 2023 08:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:27:22.265598
- Title: Resurrecting Recurrent Neural Networks for Long Sequences
- Title(参考訳): ロングシーケンスのためのリカレントニューラルネットワークの復活
- Authors: Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, Caglar
Gulcehre, Razvan Pascanu and Soham De
- Abstract要約: リカレントニューラルネットワーク(RNN)は、長いシーケンスに対する高速な推論を提供するが、最適化が難しく、訓練が遅い。
深部状態空間モデル(SSM)は、最近、長いシーケンスモデリングタスクにおいて非常によく機能することが示されている。
本稿では,信号伝搬の標準的な引数を用いた深部RNNの設計により,長距離推論タスクにおける深部SSMの性能を回復できることを示す。
- 参考スコア(独自算出の注目度): 45.800920421868625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent Neural Networks (RNNs) offer fast inference on long sequences but
are hard to optimize and slow to train. Deep state-space models (SSMs) have
recently been shown to perform remarkably well on long sequence modeling tasks,
and have the added benefits of fast parallelizable training and RNN-like fast
inference. However, while SSMs are superficially similar to RNNs, there are
important differences that make it unclear where their performance boost over
RNNs comes from. In this paper, we show that careful design of deep RNNs using
standard signal propagation arguments can recover the impressive performance of
deep SSMs on long-range reasoning tasks, while also matching their training
speed. To achieve this, we analyze and ablate a series of changes to standard
RNNs including linearizing and diagonalizing the recurrence, using better
parameterizations and initializations, and ensuring proper normalization of the
forward pass. Our results provide new insights on the origins of the impressive
performance of deep SSMs, while also introducing an RNN block called the Linear
Recurrent Unit that matches both their performance on the Long Range Arena
benchmark and their computational efficiency.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は、長いシーケンスに対する高速な推論を提供するが、最適化が難しく、訓練が遅い。
深部状態空間モデル(SSM)は、最近、長いシーケンスモデリングタスクにおいて非常によく機能し、高速並列化可能なトレーニングとRNNのような高速推論の利点を付加している。
しかし、SSMは表面的にはRNNと似ているが、RNNのパフォーマンス向上がどこから来ているのかがはっきりしない重要な違いがある。
本稿では,標準信号伝搬引数を用いた深部RNNの注意設計により,長距離推論タスクにおける深部SSMの印象的な性能を回復し,学習速度を一致させることができることを示す。
そこで我々は, 線形化と対角化, パラメータ化と初期化の改善, 前方通過の適正な正規化の確保など, 標準RNNの一連の変更を解析・アブレーションする。
その結果、深層ssmsの性能の印象的な原点に関する新たな知見が得られ、また、長い範囲のarenaベンチマークと計算効率の両方のパフォーマンスにマッチするリニアリカレントユニットと呼ばれるrnnブロックも導入された。
関連論文リスト
- PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。
まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。
第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:51:56Z) - Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - Learning Long Sequences in Spiking Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、エネルギー効率の高い計算を可能にするために、脳からインスピレーションを得ている。
トランスフォーマーの効率的な代替品に対する近年の関心は、状態空間モデル(SSM)と呼ばれる最先端の繰り返しアーキテクチャの台頭をもたらした。
論文 参考訳(メタデータ) (2023-12-14T13:30:27Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - UnICORNN: A recurrent model for learning very long time dependencies [0.0]
2次常微分方程式のハミルトン系の離散性を保つ構造に基づく新しいRNNアーキテクチャを提案する。
結果として得られるrnnは高速で可逆(時間)で、メモリ効率が良く、隠れた状態勾配の厳密な境界を導出して、爆発と消滅の勾配問題の緩和を証明する。
論文 参考訳(メタデータ) (2021-03-09T15:19:59Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - SRDCNN: Strongly Regularized Deep Convolution Neural Network
Architecture for Time-series Sensor Signal Classification Tasks [4.950427992960756]
SRDCNN: 時系列分類タスクを実行するために, SRDCNN(Strongly Regularized Deep Convolution Neural Network)をベースとしたディープアーキテクチャを提案する。
提案手法の新規性は、ネットワークウェイトが L1 と L2 のノルム法則によって正則化されることである。
論文 参考訳(メタデータ) (2020-07-14T08:42:39Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Achieving Online Regression Performance of LSTMs with Simple RNNs [0.0]
本稿では,パラメータ数に線形時間を要する1次学習アルゴリズムを提案する。
SRNNが我々のアルゴリズムでトレーニングされている場合、LSTMと非常によく似た回帰性能を2~3倍の短いトレーニング時間で提供することを示す。
論文 参考訳(メタデータ) (2020-05-16T11:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。