論文の概要: DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products
- arxiv url: http://arxiv.org/abs/2502.10297v6
- Date: Thu, 19 Jun 2025 09:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.414095
- Title: DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products
- Title(参考訳): DeltaProduct: 家庭用製品によるリニアRNNのステートトラッキングの改善
- Authors: Julien Siems, Timur Carstensen, Arber Zela, Frank Hutter, Massimiliano Pontil, Riccardo Grazzi,
- Abstract要約: リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
対角行列は、Mamba、GLA、mLSTMなどのモデルで使用されるが、高速に実行可能であるが、表現性は限られている。
DeltaNetやRWKV-7といった最近のアーキテクチャでは、同時トークンとチャネルミキシングが可能な対角形+ランク1構造が採用されている。
- 参考スコア(独自算出の注目度): 63.66021758150632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. Diagonal matrices, used in models such as Mamba, GLA, or mLSTM, yield fast runtime but have limited expressivity. To address this, recent architectures such as DeltaNet and RWKV-7 adopted a diagonal plus rank-1 structure, which allows simultaneous token and channel mixing, improving associative recall and, as recently shown, state-tracking when allowing negative eigenvalues in the state-transition matrices. Building on the interpretation of DeltaNet's recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency. We provide a detailed theoretical characterization of the state-tracking capability of DeltaProduct in finite precision, showing how it improves by increasing $n_h$. Our extensive experiments demonstrate that DeltaProduct outperforms DeltaNet in both state-tracking and language modeling, while also showing significantly improved length extrapolation capabilities.
- Abstract(参考訳): リニアリカレントニューラルネットワーク(リニアRNN)は、シーケンスモデリングのためのトランスフォーマーの代替として、効率的なトレーニングと線形時間推論を提供する。
しかし、既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の根本的なトレードオフに直面している。
対角行列は、Mamba、GLA、mLSTMなどのモデルで使用されるが、高速に実行可能であるが、表現性は限られている。
これを解決するため、DeltaNetやRWKV-7といった最近のアーキテクチャでは、対角+ランク1構造を採用しており、同時にトークンとチャネルの混合を可能にし、連想的リコールを改善し、最近示されているように、状態遷移行列における負の固有値の許容時の状態追跡を実現している。
DeltaNetの再発を、連想的リコール損失に対するトークン毎のオンライン勾配降下の一ステップの実行であると解釈した上で、DeltaProductを導入し、トークン毎のステップを複数(n_h$)にする。
このことは自然に対角行列とランク-$n_h$状態遷移行列(英語版)($n_h$ generalized Householder transformations)の積として形成され、表現性と効率のバランスをとるための調整可能なメカニズムを提供する。
DeltaProductの有限精度における状態追跡能力の詳細な理論的評価を行い,$n_h$の増加による改善方法を示す。
我々の広範な実験により、DeltaProductは、状態追跡と言語モデリングの両方においてDeltaNetよりも優れており、また長さ補間能力も大幅に改善されていることが示されている。
関連論文リスト
- Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Comba: Improving Bilinear RNNs with Closed-loop Control [19.761486052705017]
本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を紹介する。
我々は,状態フィードバックと出力フィードバックの両補正を併用した,スカラー+低ランク状態遷移を取り入れた新しいバイリニアRNNであるCombaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
論文 参考訳(メタデータ) (2025-06-03T05:44:50Z) - Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models [6.389310720722303]
我々は、構造化された入力依存状態遷移行列を持つシーケンスモデルのための統一フレームワークを提供する。
S4 と Mamba の対角的状態遷移行列とは異なり、SLiCE はブロック対角行列、スパース行列、ウォルシュ-ハダマール行列を用いる。
経験的に、SLiCEは1層で$A_5$の状態追跡ベンチマークを解き、並列時間モデル間での正規言語タスクのクラス長の最適化を実現し、ログニューラル制御微分方程式の最先端性能に適合する。
論文 参考訳(メタデータ) (2025-05-23T11:34:21Z) - Fixed-Point RNNs: Interpolating from Diagonal to Dense [10.851383867834052]
並列化可能な対角RNNの固定点としての高密度線形RNNのクラスについて検討する。
結果として得られるモデルは、パラメータの固定数で効率性のために自然に表現性を交換することができる。
論文 参考訳(メタデータ) (2025-03-13T18:50:22Z) - Gated Delta Networks: Improving Mamba2 with Delta Rule [64.58149707073915]
Gated DeltaNetは、複数のベンチマークで、Mamba2やDeltaNetのような既存のモデルを一貫して上回っている。
我々は,Gated DeltaNet 層とスライディングウィンドウアテンション,あるいは Mamba2 層を組み合わせたハイブリッドアーキテクチャを開発し,学習効率の向上とタスク性能の向上を実現した。
論文 参考訳(メタデータ) (2024-12-09T13:09:04Z) - Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
Mamba、RWKV、GLA、mLSTM、DeltaNetは、長いシーケンスでTransformerの効率的な代替手段として登場した。
しかし、TransformerとLRNNはどちらも状態追跡に苦労しており、コード評価などのタスクではパフォーマンスを損なう可能性がある。
本研究では,Mamba と DeltaNet の固有値範囲を負の値を含むように拡張することで,状態追跡タスクの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。