論文の概要: ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.21450v1
- Date: Fri, 24 Oct 2025 13:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.426435
- Title: ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models
- Title(参考訳): ParaRNN: 大規模言語モデルのための非線形RNNの並列訓練
- Authors: Federico Danieli, Pau Rodriguez, Miguel Sarabia, Xavier Suau, Luca Zappella,
- Abstract要約: ParaRNNは非線形RNNのシーケンス並列化障壁を破るフレームワークである。
本実装では,シーケンシャルアプリケーション上での最大665倍の高速化を実現している。
ParaRNNは、非線形RNNの自動トレーニング並列化のためのオープンソースフレームワークとしてリリースされた。
- 参考スコア(独自算出の注目度): 9.107447466062409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent Neural Networks (RNNs) laid the foundation for sequence modeling, but their intrinsic sequential nature restricts parallel computation, creating a fundamental barrier to scaling. This has led to the dominance of parallelizable architectures like Transformers and, more recently, State Space Models (SSMs). While SSMs achieve efficient parallelization through structured linear recurrences, this linearity constraint limits their expressive power and precludes modeling complex, nonlinear sequence-wise dependencies. To address this, we present ParaRNN, a framework that breaks the sequence-parallelization barrier for nonlinear RNNs. Building on prior work, we cast the sequence of nonlinear recurrence relationships as a single system of equations, which we solve in parallel using Newton's iterations combined with custom parallel reductions. Our implementation achieves speedups of up to 665x over naive sequential application, allowing training nonlinear RNNs at unprecedented scales. To showcase this, we apply ParaRNN to adaptations of LSTM and GRU architectures, successfully training models of 7B parameters that attain perplexity comparable to similarly-sized Transformers and Mamba2 architectures. To accelerate research in efficient sequence modeling, we release the ParaRNN codebase as an open-source framework for automatic training-parallelization of nonlinear RNNs, enabling researchers and practitioners to explore new nonlinear RNN models at scale.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)はシーケンスモデリングの基礎を築いたが、本質的なシーケンシャルな性質は並列計算を制限し、スケーリングの基本的な障壁を生み出した。
これによりTransformersや、最近ではState Space Models (SSM)のような並列化可能なアーキテクチャが支配的になった。
SSMは、構造的線形再帰を通して効率的な並列化を実現するが、この線形性制約は表現力を制限するとともに、複雑な非線形シーケンスワイド依存のモデル化を妨げている。
そこで我々は,非線形RNNのシーケンス並列化障壁を破るフレームワークであるParaRNNを提案する。
先行研究に基づいて、非線形反復関係の列を1つの方程式系として配置し、ニュートンの反復法とカスタム並列還元法を併用して並列に解いた。
提案手法は, 非線形RNNのトレーニングを前例のない規模で行うことで, 665倍の高速化を実現している。
これを示すために、ParaRNNをLSTMおよびGRUアーキテクチャの適応に適用し、同様のサイズのTransformerやMamba2アーキテクチャに匹敵するパープレキシティを実現する7Bパラメータのモデルのトレーニングに成功した。
効率的なシーケンスモデリングの研究を加速するため,非線形RNNの自動並列化のためのオープンソースフレームワークとしてParaRNNコードベースをリリースし,研究者や実践者が大規模に新しい非線形RNNモデルを探索することを可能にする。
関連論文リスト
- MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Bidirectional Linear Recurrent Models for Sequence-Level Multisource Fusion [10.867398697751742]
BLUR(Bidirectional Linear Unit for Recurrent Network)を導入し,前向きおよび後向きの線形リカレントユニット(LRU)を用いて,過去および将来の依存関係を高い計算効率で捕捉する。
逐次画像と時系列データセットの実験により、BLURはトランスフォーマーや従来のRNNをはるかに上回るだけでなく、計算コストを大幅に削減することが明らかになった。
論文 参考訳(メタデータ) (2025-04-11T20:42:58Z) - Fixed-Point RNNs: Interpolating from Diagonal to Dense [10.851383867834052]
並列化可能な対角RNNの固定点としての高密度線形RNNのクラスについて検討する。
結果として得られるモデルは、パラメータの固定数で効率性のために自然に表現性を交換することができる。
論文 参考訳(メタデータ) (2025-03-13T18:50:22Z) - Were RNNs All We Needed? [55.822693848969855]
本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。
これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - RotRNN: Modelling Long Sequences with Rotations [7.037239398244858]
ステートスペースモデル(SSM)やリニアリカレントユニット(LRU)のような線形リカレントニューラルネットワークは、最近、ロングシーケンスモデリングベンチマークで最先端のパフォーマンスを示している。
回転行列の便利な特性を利用する線形リカレントモデルであるRotRNNを提案する。
本稿では,RotRNNが頑健な正規化手順を備えたシンプルで効率的なモデルを提供し,その理論的導出に忠実な実践的実装であることを示す。
論文 参考訳(メタデータ) (2024-07-09T21:37:36Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Reverse engineering recurrent neural networks with Jacobian switching
linear dynamical systems [24.0378100479104]
リカレントニューラルネットワーク(RNN)は時系列データを処理する強力なモデルである。
トレーニングされたRNNをその固定点を中心に線形化することでリバースエンジニアリングするフレームワークは洞察を与えてきたが、アプローチには大きな課題がある。
本稿では,新しい線形力学系 (SLDS) の定式化によるRNNの協調学習により,これらの制約を克服する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-11-01T20:49:30Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。