論文の概要: DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products
- arxiv url: http://arxiv.org/abs/2502.10297v4
- Date: Mon, 07 Apr 2025 13:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 16:00:10.83082
- Title: DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products
- Title(参考訳): DeltaProduct: 家庭用製品によるリニアRNNのステートトラッキングの改善
- Authors: Julien Siems, Timur Carstensen, Arber Zela, Frank Hutter, Massimiliano Pontil, Riccardo Grazzi,
- Abstract要約: リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の基本的なトレードオフに直面している。
我々はDeltaProductを紹介し、トークンごとに複数の(n_h$)ステップを踏んで、状態追跡と言語モデリングの優れた機能を実現する。
- 参考スコア(独自算出の注目度): 63.66021758150632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKV-7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet's recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet by proving that it can solve dihedral group word problems in just two layers.
- Abstract(参考訳): リニアリカレントニューラルネットワーク(リニアRNN)は、シーケンスモデリングのためのトランスフォーマーの代替として、効率的なトレーニングと線形時間推論を提供する。
しかし、既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の根本的なトレードオフに直面している。
Mamba、GLA、あるいはmLSTMのようなアーキテクチャで使用される対角行列は高速な実行を実現するが、非常に限られた表現性に悩まされる。
これを解決するため、(Gated)DeltaNetやRWKV-7といった最近のアーキテクチャでは、対角線+ランク1構造を採用しており、同時にトークンチャネルの混合が可能であり、トレーニング効率をわずかに低下させるだけで、いくつかの表現性制限を克服している。
DeltaNetの再発を、連想的リコール損失に対するトークン毎のオンライン勾配降下の一ステップの実行であると解釈した上で、DeltaProductを導入し、トークン毎のステップを複数(n_h$)にする。
このことは自然に対角行列と階数-$n_h$状態遷移行列(英語版)($n_h$ generalized Householder transformations)の積として形成され、表現性と効率のバランスをとるための調整可能なメカニズムと安定した再現性を与える。
広範な実験を通じて、DeltaProductは、DeltaNetと比較して大幅に改善された長さ外挿を示しながら、優れた状態追跡と言語モデリング能力を実現することを実証した。
さらに、デルタネットの理論的基盤も強化し、二面体群単語問題を2層で解けることを証明した。
関連論文リスト
- Gated Delta Networks: Improving Mamba2 with Delta Rule [64.58149707073915]
Gated DeltaNetは、複数のベンチマークで、Mamba2やDeltaNetのような既存のモデルを一貫して上回っている。
我々は,Gated DeltaNet 層とスライディングウィンドウアテンション,あるいは Mamba2 層を組み合わせたハイブリッドアーキテクチャを開発し,学習効率の向上とタスク性能の向上を実現した。
論文 参考訳(メタデータ) (2024-12-09T13:09:04Z) - Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
Mamba、RWKV、GLA、mLSTM、DeltaNetは、長いシーケンスでTransformerの効率的な代替手段として登場した。
しかし、TransformerとLRNNはどちらも状態追跡に苦労しており、コード評価などのタスクではパフォーマンスを損なう可能性がある。
本研究では,Mamba と DeltaNet の固有値範囲を負の値を含むように拡張することで,状態追跡タスクの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。