論文の概要: Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues
- arxiv url: http://arxiv.org/abs/2307.11888v3
- Date: Wed, 5 Jun 2024 10:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 04:26:20.257924
- Title: Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues
- Title(参考訳): 非線型射影による線形再帰の普遍性:有限幅保証と複素固有値の利点
- Authors: Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L. Smith,
- Abstract要約: 実あるいは複素線型対角線再帰と組み合わせることで、列列列マップの任意に正確な近似が導かれることを示す。
我々は、単位円盤付近で複雑な固有値(すなわち、S4で最も成功した戦略)を利用することが、情報を保存する上で、RNNに大いに役立つことを証明した。
- 参考スコア(独自算出の注目度): 32.783917920167205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks based on linear RNNs interleaved with position-wise MLPs are gaining traction as competitive approaches for sequence modeling. Examples of such architectures include state-space models (SSMs) like S4, LRU, and Mamba: recently proposed models that achieve promising performance on text, genetics, and other data that require long-range reasoning. Despite experimental evidence highlighting these architectures' effectiveness and computational efficiency, their expressive power remains relatively unexplored, especially in connection to specific choices crucial in practice - e.g., carefully designed initialization distribution and potential use of complex numbers. In this paper, we show that combining MLPs with both real or complex linear diagonal recurrences leads to arbitrarily precise approximation of regular causal sequence-to-sequence maps. At the heart of our proof, we rely on a separation of concerns: the linear RNN provides a lossless encoding of the input sequence, and the MLP performs non-linear processing on this encoding. While we show that real diagonal linear recurrences are enough to achieve universality in this architecture, we prove that employing complex eigenvalues near unit disk - i.e., empirically the most successful strategy in S4 - greatly helps the RNN in storing information. We connect this finding with the vanishing gradient issue and provide experiments supporting our claims.
- Abstract(参考訳): 線形RNNに基づくディープニューラルネットワークは、シーケンスモデリングの競争的アプローチとして、位置対応型MLPにインターリーブされた。
そのようなアーキテクチャの例として、S4、LRU、Mambaのような状態空間モデル(SSM)がある。
これらのアーキテクチャの有効性と計算効率を実証した実験的な証拠にもかかわらず、それらの表現力は、特に実際に重要な特定の選択(例えば、慎重に設計された初期化分布と複素数の潜在的使用)に関して、比較的未解明のままである。
本稿では,MLPと実あるいは複素線形対角線再帰を組み合わせることで,正規因果列列列列の任意に正確な近似が導かれることを示す。
線形RNNは入力シーケンスのロスレスエンコーディングを提供し、MPPはこのエンコーディングに対して非線形処理を行う。
実対角線リカレンス(英語版)は、このアーキテクチャにおいて普遍性を達成するのに十分であることを示す一方で、単位円板近傍の複雑な固有値(つまり、S4で最も成功した戦略)を用いることは、情報保存においてRNNに大いに役立つことを証明している。
我々はこの発見を、消滅する勾配問題と結びつけ、我々の主張を支持する実験を提供する。
関連論文リスト
- Almost-Linear RNNs Yield Highly Interpretable Symbolic Codes in Dynamical Systems Reconstruction [8.473495734873872]
本稿では,時系列データから動的システム(DS)のPWL表現を自動的かつ堅牢に生成する,ニアリカレントニューラルネットワーク(AL-RNN)を提案する。
AL-RNNは、動的システム再構成(DSR)のための任意のSOTAアルゴリズムで効率的に訓練できる
我々は,ロレンツとR"オスラー系に対して,AL-RNNが純粋にデータ駆動方式で,対応するカオスアトラクションの位相的に最小のPWL表現を発見することを示す。
論文 参考訳(メタデータ) (2024-10-18T07:44:12Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文 参考訳(メタデータ) (2024-06-03T15:25:13Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Assessing the Unitary RNN as an End-to-End Compositional Model of Syntax [0.0]
LSTMとユニタリ進化リカレントニューラルネットワーク(URN)の両方が,2種類の構文パターンの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-08-11T09:30:49Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。