論文の概要: Why Are Linear RNNs More Parallelizable?
- arxiv url: http://arxiv.org/abs/2603.03612v2
- Date: Thu, 05 Mar 2026 05:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.361502
- Title: Why Are Linear RNNs More Parallelizable?
- Title(参考訳): 線形RNNはなぜ並列化可能か?
- Authors: William Merrill, Hongjian Jiang, Yanhong Li, Anthony Lin, Ashish Sabharwal,
- Abstract要約: LRNNを対数深度演算回路とみなすことができ、これは変圧器が認める対数深度回路と比較してわずかに深さのオーバーヘッドしか表さないことを示す。
直交対角LRNNは$mathsfNC1$-completeであるのに対し、対角+低ランクLRNNはより表現力が高い。
- 参考スコア(独自算出の注目度): 34.04439983593104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The community is increasingly exploring linear RNNs (LRNNs) as language models, motivated by their expressive power and parallelizability. While prior work establishes the expressivity benefits of LRNNs over transformers, it is unclear what makes LRNNs -- but not traditional, nonlinear RNNs -- as easy to parallelize in practice as transformers. We answer this question by providing a tight connection between types of RNNs and standard complexity classes. We show that LRNNs can be viewed as log-depth (bounded fan-in) arithmetic circuits, which represents only a slight depth overhead relative to log-depth boolean circuits that transformers admit. Furthermore, we show that nonlinear RNNs can solve $\mathsf{L}$-complete problems (and even $\mathsf{P}$-complete ones, under polynomial precision), revealing a fundamental barrier to parallelizing them as efficiently as transformers. Our theory also identifies fine-grained expressivity differences between recent popular LRNN variants: permutation-diagonal LRNNs are $\mathsf{NC}^1$-complete whereas diagonal-plus-low-rank LRNNs are more expressive ($\mathsf{PNC}^1$-complete). We provide further insight by associating each type of RNN with a corresponding automata-theoretic model that it can simulate. Together, our results reveal fundamental tradeoffs between nonlinear RNNs and different variants of LRNNs, providing a foundation for designing LLM architectures that achieve an optimal balance between expressivity and parallelism.
- Abstract(参考訳): コミュニティは言語モデルとしての線形RNN(LRNN)の探求をますます進めており、その表現力と並列化性によって動機付けられている。
以前の研究は、変換器に対するLRNNの表現力の利点を確立しているが、実際に変換器として並列化するのは、LRNNが---------------------------------------------------------------------------------------------------- ---------------------------------------------------------------------------------------------------- -----------------
我々は、RNNのタイプと標準複雑性クラスとの密接な関係を提供することで、この問題に答える。
LRNNは対数深度(有界ファンイン)演算回路とみなすことができ、これは変換器が認める対数深度ブール回路と比較してわずかに深さのオーバーヘッドしか表さないことを示す。
さらに、非線形RNNは$\mathsf{L}$-complete問題(および$\mathsf{P}$-complete問題)を多項式精度で解くことができ、変換器のように効率的に並列化するための基本的な障壁を明らかにする。
置換対角LRNNは$\mathsf{NC}^1$-completeであるのに対し、対角+低ランクLRNNはより表現力が高い("\mathsf{PNC}^1$-complete")。
我々は、RNNの各タイプを対応するオートマトン理論モデルに関連付け、シミュレート可能なさらなる洞察を提供する。
その結果,非線形RNNとLRNNの異なる変種との基本的なトレードオフが明らかとなり,表現性と並列性の最適なバランスを実現するLLMアーキテクチャの設計の基礎となった。
関連論文リスト
- ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models [9.107447466062409]
ParaRNNは非線形RNNのシーケンス並列化障壁を破るフレームワークである。
本実装では,シーケンシャルアプリケーション上での最大665倍の高速化を実現している。
ParaRNNは、非線形RNNの自動トレーニング並列化のためのオープンソースフレームワークとしてリリースされた。
論文 参考訳(メタデータ) (2025-10-24T13:28:33Z) - Fixed-Point RNNs: Interpolating from Diagonal to Dense [18.06917701940596]
リニアリカレントニューラルネットワーク(RNN)とステートスペースモデル(SSM)は、トランスフォーマーアーキテクチャにおけるシーケンス混合層としてのソフトマックスアテンションに代わる有望な代替手段となっている。
しかし、現在のモデルはチャネルワイド(対角)配列の混合に依存するため、RNNの完全な状態追跡表現性は示さない。
本稿では, 並列化可能な対角RNNの固定点としての高密度線形RNNのパラメータ化について検討する。
論文 参考訳(メタデータ) (2025-03-13T18:50:22Z) - Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
Mamba、RWKV、GLA、mLSTM、DeltaNetは、長いシーケンスでTransformerの効率的な代替手段として登場した。
しかし、TransformerとLRNNはどちらも状態追跡に苦労しており、コード評価などのタスクではパフォーマンスを損なう可能性がある。
本研究では,Mamba と DeltaNet の固有値範囲を負の値を含むように拡張することで,状態追跡タスクの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - On Efficiently Representing Regular Languages as RNNs [49.88310438099143]
RNNは、人間の言語で広く使われている有界階層構造を効率的に表現できることを示す。
これは、RNNの成功が階層をモデル化する能力と結びついていることを示唆している。
我々は,RNNが従来主張していたより大規模なLMを効率的に表現できることを示す。
論文 参考訳(メタデータ) (2024-02-24T13:42:06Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Adaptive-saturated RNN: Remember more with less instability [2.191505742658975]
本研究では,2つのアプローチ間の飽和度を動的に調整する適応飽和RNN(asRNN)を提案する。
我々の実験は、いくつかの強力な競合相手と比較して、挑戦的なシーケンス学習ベンチマークにおけるasRNNの結果を奨励することを示した。
論文 参考訳(メタデータ) (2023-04-24T02:28:03Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - Recurrent Neural Network from Adder's Perspective: Carry-lookahead RNN [9.20540910698296]
本稿では、リカレントニューラルネットワーク(RNN)とシリアル加算器の類似性について論じる。
carry-lookahead adder にインスパイアされ、RNN に carry-lookahead モジュールを導入し、RNN の並列実行を可能にする。
論文 参考訳(メタデータ) (2021-06-22T12:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。