論文の概要: Were RNNs All We Needed?
- arxiv url: http://arxiv.org/abs/2410.01201v2
- Date: Fri, 4 Oct 2024 05:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:40:58.347067
- Title: Were RNNs All We Needed?
- Title(参考訳): 必要なRNNは全部あるのか?
- Authors: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh,
- Abstract要約: 従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
- 参考スコア(独自算出の注目度): 53.393497486332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scalability limitations of Transformers regarding sequence length have renewed interest in recurrent sequence models that are parallelizable during training. As a result, many novel recurrent architectures, such as S4, Mamba, and Aaren, have been proposed that achieve comparable performance. In this work, we revisit traditional recurrent neural networks (RNNs) from over a decade ago: LSTMs (1997) and GRUs (2014). While these models were slow due to requiring to backpropagate through time (BPTT), we show that by removing their hidden state dependencies from their input, forget, and update gates, LSTMs and GRUs no longer need to BPTT and can be efficiently trained in parallel. Building on this, we introduce minimal versions (minLSTMs and minGRUs) that (1) use significantly fewer parameters than their traditional counterparts and (2) are fully parallelizable during training (175x faster for a sequence of length 512). Lastly, we show that these stripped-down versions of decade-old RNNs match the empirical performance of recent sequence models.
- Abstract(参考訳): シーケンス長に関するトランスフォーマーのスケーラビリティ制限は、トレーニング中に並列化可能なリカレントシーケンスモデルに新たな関心を寄せている。
その結果、S4、Mamba、Aarenといった新しい再並行アーキテクチャが、同等のパフォーマンスを実現するために提案されている。
本研究では、従来のリカレントニューラルネットワーク(RNN)を10年以上前のLSTM(1997年)とGRU(2014年)で再検討する。
これらのモデルは,時間的バックプロパゲーション(BPTT)を必要とするため遅いが,入力から隠れた状態依存を取り除くことで,LSTMやGRUはBPTTを必要とせず,並列で効率的に訓練できることを示す。
これに基づいて,(1)従来のパラメータよりもはるかに少ないパラメータを使用する最小バージョン (minLSTMs と minGRUs) を導入し,(2) はトレーニング中に完全に並列化可能である(長さ512のシーケンスでは175倍高速)。
最後に、これらの10年前のRNNの取り除かれたバージョンは、最近のシーケンスモデルの実証的な性能と一致していることを示す。
関連論文リスト
- Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。
Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文 参考訳(メタデータ) (2023-02-02T14:40:28Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。