論文の概要: Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling
- arxiv url: http://arxiv.org/abs/2505.21717v1
- Date: Tue, 27 May 2025 20:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.263037
- Title: Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling
- Title(参考訳): 効率的なシーケンスモデリングのための液体抵抗型液体キャパシタンスネットワークのスケールアップ
- Authors: Mónika Farsang, Ramin Hasani, Radu Grosu,
- Abstract要約: 本稿では,LrcSSMについて述べる。LrcSSMは,現在の線形状態空間層と同じくらい高速に長いシーケンスを処理できるリカレントモデルである。
LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
- 参考スコア(独自算出の注目度): 9.752193723099857
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present LrcSSM, a \textit{nonlinear} recurrent model that processes long sequences as fast as today's linear state-space layers. By forcing the state-transition matrix to be diagonal and learned at every step, the full sequence can be solved in parallel with a single prefix-scan, giving $\mathcal{O}(TD)$ time and memory and only $\mathcal{O}(\log T)$ sequential depth, for input-sequence length $T$ and a state dimension $D$. Moreover, LrcSSM offers a formal gradient-stability guarantee that other input-varying systems such as Liquid-S4 and Mamba do not provide. Lastly, for network depth $L$, as the forward and backward passes cost $\Theta(T\,D\,L)$ FLOPs, with its low sequential depth and parameter count $\Theta(D\,L)$, the model follows the compute-optimal scaling law regime ($\beta \approx 0.42$) recently observed for Mamba, outperforming quadratic-attention Transformers at equal compute while avoiding the memory overhead of FFT-based long convolutions. We show that on a series of long-range forecasting tasks, LrcSSM outperforms LRU, S5 and Mamba.
- Abstract(参考訳): 本稿では,LrcSSMについて述べる。LrcSSMはリカレントモデルで,現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
状態遷移行列をすべてのステップで対角的に学習させることで、完全なシーケンスは単一のプレフィックススキャンと並列に解決でき、入力シーケンス長$T$と状態次元$D$に対して$\mathcal{O}(TD)$時間とメモリと$\mathcal{O}(\log T)$シーケンシャル深さを与える。
さらに、LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
最後に、ネットワーク深度$L$の場合、フォワードとバックワードはコスト$\Theta(T\,D\,L)$ FLOPsで、その低シーケンシャル深さとパラメータカウント$\Theta(D\,L)$では、最近Mambaで観測された計算最適スケーリング法則($\beta \approx 0.42$)に従っている。
本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
関連論文リスト
- From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。
我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。
MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文 参考訳(メタデータ) (2024-12-04T23:14:00Z) - Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。