論文の概要: Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues
- arxiv url: http://arxiv.org/abs/2411.12537v1
- Date: Tue, 19 Nov 2024 14:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:30.827797
- Title: Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues
- Title(参考訳): 負の固有値による線形RNNの解錠状態追跡
- Authors: Riccardo Grazzi, Julien Siems, Jörg K. H. Franke, Arber Zela, Frank Hutter, Massimiliano Pontil,
- Abstract要約: リニアリカレントニューラルネットワーク(LRNN)は、大規模言語モデリングにおけるトランスフォーマーの効率的な代替手段として登場した。
LRNNは、コード評価やチェスゲーム追跡といったタスクのパフォーマンスを損なうような状態追跡を行うのに苦労している。
我々の研究は、現代のLRNNの表現性を高め、トレーニングや推論のコストを変えることなく適用性を高める。
- 参考スコア(独自算出の注目度): 65.41946981594567
- License:
- Abstract: Linear Recurrent Neural Networks (LRNNs) such as Mamba, RWKV, GLA, mLSTM, and DeltaNet have emerged as efficient alternatives to Transformers in large language modeling, offering linear scaling with sequence length and improved training efficiency. However, LRNNs struggle to perform state-tracking which may impair performance in tasks such as code evaluation or tracking a chess game. Even parity, the simplest state-tracking task, which non-linear RNNs like LSTM handle effectively, cannot be solved by current LRNNs. Recently, Sarrof et al. (2024) demonstrated that the failure of LRNNs like Mamba to solve parity stems from restricting the value range of their diagonal state-transition matrices to $[0, 1]$ and that incorporating negative values can resolve this issue. We extend this result to non-diagonal LRNNs, which have recently shown promise in models such as DeltaNet. We prove that finite precision LRNNs with state-transition matrices having only positive eigenvalues cannot solve parity, while complex eigenvalues are needed to count modulo $3$. Notably, we also prove that LRNNs can learn any regular language when their state-transition matrices are products of identity minus vector outer product matrices, each with eigenvalues in the range $[-1, 1]$. Our empirical results confirm that extending the eigenvalue range of models like Mamba and DeltaNet to include negative values not only enables them to solve parity but consistently improves their performance on state-tracking tasks. Furthermore, pre-training LRNNs with an extended eigenvalue range for language modeling achieves comparable performance and stability while showing promise on code and math data. Our work enhances the expressivity of modern LRNNs, broadening their applicability without changing the cost of training or inference.
- Abstract(参考訳): Mamba、RWKV、GLA、mLSTM、DeltaNetといったリニアリカレントニューラルネットワーク(LRNN)は、大規模言語モデリングにおけるトランスフォーマーの効率的な代替手段として登場し、シーケンス長の線形スケーリングとトレーニング効率の向上を実現している。
しかし、LRNNは、コード評価やチェスゲーム追跡といったタスクでパフォーマンスを損なう可能性のある状態追跡を行うのに苦労している。
たとえパリティであっても、LSTMのような非線形RNNが効果的に扱う最も単純な状態追跡タスクは、現在のLRNNでは解決できない。
最近、Sarrof et al (2024) は、Mamba のような LRNN がパリティを解くのに失敗したことは、対角状態遷移行列の値範囲を$[0, 1]$に制限することによるものであり、負の値を導入することでこの問題を解決できることを示した。
我々はこの結果を非対角LRNNに拡張し、DeltaNetのようなモデルで最近約束されている。
正の固有値しか持たない状態遷移行列を持つ有限精度LRNNはパリティを解くことができず、複素固有値はモジュロ3$を数えるのに必要である。
特に、LRNNは、状態遷移行列が恒等ベクトル外積行列の積で、それぞれが範囲$[-1, 1]$の固有値を持つとき、任意の正規言語を学習できることを示す。
実験の結果,Mamba や DeltaNet のようなモデルの固有値範囲を負の値に拡張することで,パリティを解くだけでなく,状態追跡タスクの性能を継続的に改善できることがわかった。
さらに、言語モデリングのための拡張固有値範囲を持つ事前学習LRNNは、コードと数学データに保証を示しながら、同等のパフォーマンスと安定性を達成する。
我々の研究は、現代のLRNNの表現性を高め、トレーニングや推論のコストを変えることなく適用性を高める。
関連論文リスト
- Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - Learning nonlinear integral operators via Recurrent Neural Networks and
its application in solving Integro-Differential Equations [4.011446845089061]
非線形積分微分方程式(IDE)に現れる非線形積分作用素を学習し、表現する。
非線形積分作用素のLSTM-RNN表現により、非線形積分微分方程式の系を通常の微分方程式の系に変換することができる。
量子多体系に対するダイソン方程式を効果的に解く方法について述べる。
論文 参考訳(メタデータ) (2023-10-13T22:57:46Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Symmetric Tensor Networks for Generative Modeling and Constrained
Combinatorial Optimization [72.41480594026815]
ポートフォリオ最適化からロジスティクスに至るまで、制約付き最適化問題は業界に多い。
これらの問題の解決における主要な障害の1つは、有効な検索空間を制限する非自明なハード制約の存在である。
本研究では、Ax=bという形の任意の整数値等式制約をU(1)対称ネットワーク(TN)に直接エンコードし、それらの適用性を量子に着想を得た生成モデルとして活用する。
論文 参考訳(メタデータ) (2022-11-16T18:59:54Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Adaptive Discounting of Implicit Language Models in RNN-Transducers [33.63456351411599]
RNN-Tアーキテクチャでは,軽量適応型LMディスカウント技術が利用できることを示す。
WERとレアワードPERの最大4%と14%の相対的削減を,会話型,コード混在型のHindi- English ASRタスクで達成した。
論文 参考訳(メタデータ) (2022-02-21T08:44:56Z) - Matrix Smoothing: A Regularization for DNN with Transition Matrix under
Noisy Labels [54.585681272543056]
ノイズラベルの存在下でのディープニューラルネットワーク(DNN)のトレーニングは重要かつ困難な課題である。
最近の確率論的手法はDNNへの遷移行列を直接適用し、DNNの過剰適合に対する感受性を無視する。
そこで本稿では,DNN更新にスムーズな遷移行列を用いてオーバーフィッティングを制限する手法を提案する。
論文 参考訳(メタデータ) (2020-03-26T13:49:37Z) - The Power of Linear Recurrent Neural Networks [1.124958340749622]
自己回帰線形,すなわち線形活性化リカレントニューラルネットワーク(LRNN)が,任意の時間依存関数f(t)を近似できることを示す。
LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。
論文 参考訳(メタデータ) (2018-02-09T15:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。