Fugu-MT 論文翻訳(概要): Were RNNs All We Needed?

論文の概要: Were RNNs All We Needed?

arxiv url: http://arxiv.org/abs/2410.01201v3
Date: Thu, 28 Nov 2024 07:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.41071
Title: Were RNNs All We Needed?
Title（参考訳）: 必要なRNNは全部あるのか?
Authors: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadeghi,
Abstract要約: 本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
参考スコア（独自算出の注目度）: 55.822693848969855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The introduction of Transformers in 2017 reshaped the landscape of deep learning. Originally proposed for sequence modelling, Transformers have since achieved widespread success across various domains. However, the scalability limitations of Transformers - particularly with respect to sequence length - have sparked renewed interest in novel recurrent models that are parallelizable during training, offer comparable performance, and scale more effectively. In this work, we revisit sequence modelling from a historical perspective, focusing on Recurrent Neural Networks (RNNs), which dominated the field for two decades before the rise of Transformers. Specifically, we examine LSTMs (1997) and GRUs (2014). We demonstrate that by simplifying these models, we can derive minimal versions (minLSTMs and minGRUs) that (1) use fewer parameters than their traditional counterparts, (2) are fully parallelizable during training, and (3) achieve surprisingly competitive performance on a range of tasks, rivalling recent models including Transformers.
Abstract（参考訳）: 2017年にTransformersが導入されたことで、ディープラーニングの風景が変わりました。もともとシーケンスモデリングのために提案されたトランスフォーマーは、その後様々な領域で広く成功している。しかし、トランスフォーマーのスケーラビリティ制限(特にシーケンス長に関して)は、トレーニング中に並列化可能で、同等のパフォーマンスを提供し、より効果的にスケールできる新しいリカレントモデルに新たな関心を喚起している。本研究では,トランスフォーマーが出現する20年間にわたってこの分野を支配してきたリカレントニューラルネットワーク(Recurrent Neural Networks, RNN)に着目し,歴史的観点からのシーケンスモデリングを再考する。具体的には,LSTMs (1997) と GRUs (2014) について検討する。これらのモデルを簡単にすることで、(1)従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)、(2)訓練中に完全に並列化可能であること、(3)トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほどの競争性能を達成することができることを示す。

関連論文リスト

Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling [69.36377985746878]
本研究では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。まず,訓練中に遭遇しないシーケンス長の大幅な性能劣化を引き起こす*状態崩壊*(SC)について検討する。我々は,言語モデルとパスキー検索における逐次状態キャパシティを実証的に推定するために,長い文書上に一連のマンバ2モデルを訓練する。
論文参考訳（メタデータ） (2024-10-09T17:54:28Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Resurrecting Recurrent Neural Networks for Long Sequences [45.800920421868625]
リカレントニューラルネットワーク(RNN)は、長いシーケンスに対する高速な推論を提供するが、最適化が難しく、訓練が遅い。深部状態空間モデル(SSM)は、最近、長いシーケンスモデリングタスクにおいて非常によく機能することが示されている。本稿では,信号伝搬の標準的な引数を用いた深部RNNの設計により,長距離推論タスクにおける深部SSMの性能を回復できることを示す。
論文参考訳（メタデータ） (2023-03-11T08:53:11Z)
Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。 Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文参考訳（メタデータ） (2023-02-02T14:40:28Z)
Robust representations of oil wells' intervals via sparse attention mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文参考訳（メタデータ） (2022-12-29T09:56:33Z)
An Improved Time Feedforward Connections Recurrent Neural Networks [3.0965505512285967]
リカレントニューラルネットワーク(RNN)は洪水予測や財務データ処理といった時間的問題に広く応用されている。従来のRNNモデルは、厳密な時系列依存性のために勾配問題を増幅する。勾配問題に対処するために、改良された時間フィードフォワード接続リカレントニューラルネットワーク(TFC-RNN)モデルが最初に提案された。単一ゲートリカレントユニット(Single Gate Recurrent Unit, SGRU)と呼ばれる新しい細胞構造が提示され、RNNセルのパラメータ数が減少した。
論文参考訳（メタデータ） (2022-11-03T09:32:39Z)
Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文参考訳（メタデータ） (2021-02-22T23:43:47Z)
A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文参考訳（メタデータ） (2020-10-08T18:24:12Z)
Achieving Online Regression Performance of LSTMs with Simple RNNs [0.0]
本稿では,パラメータ数に線形時間を要する1次学習アルゴリズムを提案する。 SRNNが我々のアルゴリズムでトレーニングされている場合、LSTMと非常によく似た回帰性能を2～3倍の短いトレーニング時間で提供することを示す。
論文参考訳（メタデータ） (2020-05-16T11:41:13Z)
Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文参考訳（メタデータ） (2020-03-18T09:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。