論文の概要: DeltaProduct: Increasing the Expressivity of DeltaNet Through Products of Householders
- arxiv url: http://arxiv.org/abs/2502.10297v1
- Date: Fri, 14 Feb 2025 16:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:01.987149
- Title: DeltaProduct: Increasing the Expressivity of DeltaNet Through Products of Householders
- Title(参考訳): DeltaProduct: 家庭用製品によるDeltaNetの表現性の向上
- Authors: Julien Siems, Timur Carstensen, Arber Zela, Frank Hutter, Massimiliano Pontil, Riccardo Grazzi,
- Abstract要約: リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
既存のアーキテクチャは、表現性と効率の基本的なトレードオフに直面しており、状態遷移行列の構造によって規定されている。
- 参考スコア(独自算出の注目度): 63.66021758150632
- License:
- Abstract: Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKVv7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet's recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet's expressivity by proving that it can solve dihedral group word problems in just two layers.
- Abstract(参考訳): リニアリカレントニューラルネットワーク(リニアRNN)は、シーケンスモデリングのためのトランスフォーマーの代替として、効率的なトレーニングと線形時間推論を提供する。
しかし、既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の根本的なトレードオフに直面している。
Mamba、GLA、あるいはmLSTMのようなアーキテクチャで使用される対角行列は高速な実行を実現するが、非常に限られた表現性に悩まされる。
これを解決するため、(Gated)DeltaNetやRWKVv7といった最近のアーキテクチャでは、対角角+ランク1構造を採用しており、同時にトークンチャネルの混合が可能であり、トレーニング効率をわずかに低下させるだけで、いくつかの表現力制限を克服している。
DeltaNetの再発を、連想的リコール損失に対するトークン毎のオンライン勾配降下の一ステップの実行であると解釈した上で、DeltaProductを導入し、トークン毎のステップを複数(n_h$)にする。
このことは自然に対角行列と階数-$n_h$状態遷移行列(英語版)($n_h$ generalized Householder transformations)の積として形成され、表現性と効率のバランスをとるための調整可能なメカニズムと安定した再現性を与える。
広範な実験を通じて、DeltaProductは、DeltaNetと比較して大幅に改善された長さ外挿を示しながら、優れた状態追跡と言語モデリング能力を実現することを実証した。
さらに、デルタネットの表現性の理論的基礎も強化し、二面体群を2層で解くことができることを示した。
関連論文リスト
- Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
リニアリカレントニューラルネットワーク(LRNN)は、大規模言語モデリングにおけるトランスフォーマーの効率的な代替手段として登場した。
LRNNは、コード評価やチェスゲーム追跡といったタスクのパフォーマンスを損なうような状態追跡を行うのに苦労している。
我々の研究は、現代のLRNNの表現性を高め、トレーニングや推論のコストを変えることなく適用性を高める。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Efficient generative adversarial networks using linear additive-attention Transformers [0.8287206589886879]
本稿では,Ladaformer という線形アテンショントランスフォーマーブロックに基づく新しい GAN アーキテクチャを提案する。
LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
LadaGANは、最先端のマルチステップ生成モデルと比較して、競争性能を示している。
論文 参考訳(メタデータ) (2024-01-17T21:08:41Z) - Dynamic Clone Transformer for Efficient Convolutional Neural Netwoks [0.0]
本稿では,多経路完全連結パターン(MPFC)という概念を導入し,位相パターンの相互依存性,精度,効率性を再考する。
MPFCにインスパイアされた動的クローントランス (DCT) と呼ばれるデュアルブランチモジュールを提案し、入力から複数の複製を生成する。
論文 参考訳(メタデータ) (2021-06-12T13:42:28Z) - Monotone operator equilibrium networks [97.86610752856987]
我々はモノトン作用素の理論に基づく新しい暗黙深度モデル、モノトン演算子平衡ネットワーク(monDEQ)を開発した。
暗黙的ネットワークの平衡点の発見と単調作用素分割問題の解法との密接な関係を示す。
次に、ネットワークのパラメータ化を開発し、全ての作用素が単調であり続けることを保証し、ユニークな平衡点の存在を保証する。
論文 参考訳(メタデータ) (2020-06-15T17:57:31Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。