論文の概要: Improved state mixing in higher-order and block diagonal linear recurrent networks
- arxiv url: http://arxiv.org/abs/2602.12021v1
- Date: Thu, 12 Feb 2026 14:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.875891
- Title: Improved state mixing in higher-order and block diagonal linear recurrent networks
- Title(参考訳): 高次およびブロック対角線リカレントネットワークにおける状態混合の改善
- Authors: Igor Dubinin, Antonio Orvieto, Felix Effenberger,
- Abstract要約: リニア・リカレント・ネットワーク(LRNN)とリニア・ステート・スペース・モデル(SSM)は、長時間のモデリングタスクにおいて計算とメモリ効率を約束する。
一方、高密度で非線形なアーキテクチャ(LSTMなど)は明らかに表現力があるが、計算に費用がかかる。
ここでは、LRNNの表現性は、競争効率を維持しつつ、時間とチャネルをまたいだリッチな状態混合によってどのように向上するかを考察する。
- 参考スコア(独自算出の注目度): 16.116191916700554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear recurrent networks (LRNNs) and linear state space models (SSMs) promise computational and memory efficiency on long-sequence modeling tasks, yet their diagonal state transitions limit expressivity. Dense and nonlinear architectures (e.g., LSTMs) on the other hand are provably more expressive, but computationally costly. Here, we explore how expressivity in LRNNs can be increased via richer state mixing across time and channels while maintaining competitive efficiency. Specifically, we introduce two structured LRNN architectures: (i) Higher-order Linear Recurrent Units (H-LRU), which generalize first-order recurrence to higher order, mixing multiple past states, and (ii) Block-Diagonal LRUs (BD-LRU), which enable dense intra-block channel mixing. Per-channel (H-LRU) or per-row (BD-LRU) L1-normalization of selective gates stabilizes training and allows for scaling window/block sizes. A parallel-scan implementation of the proposed architectures keeps the throughput competitive with diagonal LRNNs for moderate orders (H-LRU) and block sizes (BD-LRU). In synthetic sequence modeling tasks, the performance of BD-LRU matches or exceeds those of linear SSMs (Mamba), low-rank LRNNs (DeltaNet) and LSTM baselines, while H-LRU is found to be the most parameter-efficient in compression task. In both synthetic sequence modeling and language modeling, our results indicate that the structure of state mixing rather than width alone shapes expressivity of LRNNs, offering a practical route to closing the efficiency-expressivity gap in linear sequence models.
- Abstract(参考訳): リニア・リカレント・ネットワーク(LRNN)とリニア・ステート・スペース・モデル(SSM)は、長いシーケンスのモデリングタスクにおいて計算とメモリ効率を約束するが、その対角状態遷移は表現性を制限する。
一方、高密度で非線形なアーキテクチャ(LSTMなど)は明らかに表現力があるが、計算に費用がかかる。
ここでは、LRNNの表現性は、競争効率を維持しつつ、時間とチャネルをまたいだリッチな状態混合によってどのように向上するかを考察する。
具体的には,2つの構造化LRNNアーキテクチャを紹介する。
一 上位リニアリカレントユニット(H-LRU) 一階リカレントを高階に一般化し、複数過去の状態を混合し、
(II)ブロック内チャネルの密混合を可能にするブロック対角LRU(BD-LRU)。
Perチャネル(H-LRU)またはper-row(BD-LRU) L1選択ゲートの正規化はトレーニングを安定させ、ウィンドウ/ブロックサイズをスケール可能にする。
提案アーキテクチャの並列スキャン実装により,中間順序 (H-LRU) とブロックサイズ (BD-LRU) の対角的LRNNとのスループットの競合が維持される。
合成シーケンスモデリングタスクでは、BD-LRUの性能は線形SSM(Mamba)、低ランクLRNN(DeltaNet)、LSTMベースラインと一致し、一方H-LRUは圧縮タスクにおいて最もパラメータ効率が高い。
合成シーケンスモデリングと言語モデリングの両方において、LRNNの幅のみではなく、状態混合の構造が表現率を表現できることを示し、線形シーケンスモデルにおける効率-表現率ギャップを閉じるための実用的な経路を提供する。
関連論文リスト
- PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models [9.107447466062409]
ParaRNNは非線形RNNのシーケンス並列化障壁を破るフレームワークである。
本実装では,シーケンシャルアプリケーション上での最大665倍の高速化を実現している。
ParaRNNは、非線形RNNの自動トレーニング並列化のためのオープンソースフレームワークとしてリリースされた。
論文 参考訳(メタデータ) (2025-10-24T13:28:33Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Efficient Large Language Model Inference with Neural Block Linearization [51.619870789584525]
本稿では,トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を紹介する。
NBLは、線形最小平均正方形誤差推定器から導かれる線形近似で自己アテンション層を置き換える。
実験では、NBLは競争精度を維持しながら、顕著な計算スピードアップを達成する。
論文 参考訳(メタデータ) (2025-05-27T12:01:43Z) - Fixed-Point RNNs: Interpolating from Diagonal to Dense [18.06917701940596]
リニアリカレントニューラルネットワーク(RNN)とステートスペースモデル(SSM)は、トランスフォーマーアーキテクチャにおけるシーケンス混合層としてのソフトマックスアテンションに代わる有望な代替手段となっている。
しかし、現在のモデルはチャネルワイド(対角)配列の混合に依存するため、RNNの完全な状態追跡表現性は示さない。
本稿では, 並列化可能な対角RNNの固定点としての高密度線形RNNのパラメータ化について検討する。
論文 参考訳(メタデータ) (2025-03-13T18:50:22Z) - Efficient State Space Model via Fast Tensor Convolution and Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-23T12:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。