論文の概要: Were RNNs All We Needed?
- arxiv url: http://arxiv.org/abs/2410.01201v3
- Date: Thu, 28 Nov 2024 07:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:25.581575
- Title: Were RNNs All We Needed?
- Title(参考訳): 必要なRNNは全部あるのか?
- Authors: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadeghi,
- Abstract要約: 本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。
これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
- 参考スコア(独自算出の注目度): 55.822693848969855
- License:
- Abstract: The introduction of Transformers in 2017 reshaped the landscape of deep learning. Originally proposed for sequence modelling, Transformers have since achieved widespread success across various domains. However, the scalability limitations of Transformers - particularly with respect to sequence length - have sparked renewed interest in novel recurrent models that are parallelizable during training, offer comparable performance, and scale more effectively. In this work, we revisit sequence modelling from a historical perspective, focusing on Recurrent Neural Networks (RNNs), which dominated the field for two decades before the rise of Transformers. Specifically, we examine LSTMs (1997) and GRUs (2014). We demonstrate that by simplifying these models, we can derive minimal versions (minLSTMs and minGRUs) that (1) use fewer parameters than their traditional counterparts, (2) are fully parallelizable during training, and (3) achieve surprisingly competitive performance on a range of tasks, rivalling recent models including Transformers.
- Abstract(参考訳): 2017年にTransformersが導入されたことで、ディープラーニングの風景が変わりました。
もともとシーケンスモデリングのために提案されたトランスフォーマーは、その後様々な領域で広く成功している。
しかし、トランスフォーマーのスケーラビリティ制限(特にシーケンス長に関して)は、トレーニング中に並列化可能で、同等のパフォーマンスを提供し、より効果的にスケールできる新しいリカレントモデルに新たな関心を喚起している。
本研究では,トランスフォーマーが出現する20年間にわたってこの分野を支配してきたリカレントニューラルネットワーク(Recurrent Neural Networks, RNN)に着目し,歴史的観点からのシーケンスモデリングを再考する。
具体的には,LSTMs (1997) と GRUs (2014) について検討する。
これらのモデルを簡単にすることで、(1)従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)、(2)訓練中に完全に並列化可能であること、(3)トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほどの競争性能を達成することができることを示す。
関連論文リスト
- Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling [69.36377985746878]
本研究では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。
まず,訓練中に遭遇しないシーケンス長の大幅な性能劣化を引き起こす*状態崩壊*(SC)について検討する。
我々は,言語モデルとパスキー検索における逐次状態キャパシティを実証的に推定するために,長い文書上に一連のマンバ2モデルを訓練する。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Resurrecting Recurrent Neural Networks for Long Sequences [45.800920421868625]
リカレントニューラルネットワーク(RNN)は、長いシーケンスに対する高速な推論を提供するが、最適化が難しく、訓練が遅い。
深部状態空間モデル(SSM)は、最近、長いシーケンスモデリングタスクにおいて非常によく機能することが示されている。
本稿では,信号伝搬の標準的な引数を用いた深部RNNの設計により,長距離推論タスクにおける深部SSMの性能を回復できることを示す。
論文 参考訳(メタデータ) (2023-03-11T08:53:11Z) - An Improved Time Feedforward Connections Recurrent Neural Networks [3.0965505512285967]
リカレントニューラルネットワーク(RNN)は洪水予測や財務データ処理といった時間的問題に広く応用されている。
従来のRNNモデルは、厳密な時系列依存性のために勾配問題を増幅する。
勾配問題に対処するために、改良された時間フィードフォワード接続リカレントニューラルネットワーク(TFC-RNN)モデルが最初に提案された。
単一ゲートリカレントユニット(Single Gate Recurrent Unit, SGRU)と呼ばれる新しい細胞構造が提示され、RNNセルのパラメータ数が減少した。
論文 参考訳(メタデータ) (2022-11-03T09:32:39Z) - Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。
ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。
並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-02-22T23:43:47Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Achieving Online Regression Performance of LSTMs with Simple RNNs [0.0]
本稿では,パラメータ数に線形時間を要する1次学習アルゴリズムを提案する。
SRNNが我々のアルゴリズムでトレーニングされている場合、LSTMと非常によく似た回帰性能を2~3倍の短いトレーニング時間で提供することを示す。
論文 参考訳(メタデータ) (2020-05-16T11:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。