論文の概要: Universality of Linear Recurrences Followed by Non-linear Projections:
Finite-Width Guarantees and Benefits of Complex Eigenvalues
- arxiv url: http://arxiv.org/abs/2307.11888v2
- Date: Mon, 11 Mar 2024 17:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:49:58.449916
- Title: Universality of Linear Recurrences Followed by Non-linear Projections:
Finite-Width Guarantees and Benefits of Complex Eigenvalues
- Title(参考訳): 線形再帰と非線形射影の普遍性:有限幅保証と複素固有値の利点
- Authors: Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L.
Smith
- Abstract要約: 線形複素数値RNNと線形対角線再帰を組み合わせれば、逐次列列マップの任意の精度で近似できることを示す。
我々は、単位ディスクの近くに複雑な固有値(すなわち、SSMにおいて最も成功した戦略)を採用することが、情報を保存する上で、RNNに大いに役立つことを証明した。
- 参考スコア(独自算出の注目度): 35.17209370064094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks based on linear complex-valued RNNs interleaved with
position-wise MLPs are gaining traction as competitive approaches to sequence
modeling. Examples of such architectures include state-space models (SSMs) like
S4, LRU, and Mamba: recently proposed models that achieve promising performance
on text, genetics, and other data that require long-range reasoning. Despite
experimental evidence highlighting these architectures' effectiveness and
computational efficiency, their expressive power remains relatively unexplored,
especially in connection to specific choices crucial in practice - e.g.,
carefully designed initialization distribution and use of complex numbers. In
this paper, we show that combining MLPs with both real or complex linear
diagonal recurrences leads to arbitrarily precise approximation of regular
causal sequence-to-sequence maps. At the heart of our proof, we rely on a
separation of concerns: the linear RNN provides a lossless encoding of the
input sequence, and the MLP performs non-linear processing on this encoding.
While we show that using real diagonal linear recurrences is enough to achieve
universality in this architecture, we prove that employing complex eigenvalues
near unit disk - i.e., empirically the most successful strategy in SSMs -
greatly helps the RNN in storing information. We connect this finding with the
vanishing gradient issue and provide experimental evidence supporting our
claims.
- Abstract(参考訳): 線形複素数値RNNに基づくディープニューラルネットワークは、シーケンスモデリングの競争的アプローチとして、位置対応型MLPにインターリーブされた。
そのようなアーキテクチャの例として、S4、LRU、Mambaのような状態空間モデル(SSM)がある。
これらのアーキテクチャの有効性と計算効率を実証した実験的な証拠にもかかわらず、その表現力は、特に実用上重要な特定の選択(例えば、慎重に設計された初期化分布と複素数の使用)に関連して、比較的未調査のままである。
本稿では,MLPと実あるいは複素線形対角線再帰を組み合わせることで,正規因果列列列列マップの任意の精度で近似できることを示す。
線形RNNは入力シーケンスのロスレス符号化を提供し、MPPはこの符号化に対して非線形処理を行う。
実対角リニアリカレンスを用いることは,このアーキテクチャの普遍性を実現するのに十分であることを示す一方で,単位円板近傍の複雑な固有値(つまり,SSMにおいて最も成功した戦略を実証することで,RNNが情報を保存するのに有効であることを示す。
我々はこの発見を消滅する勾配問題と結びつけ、我々の主張を支持する実験的証拠を提供する。
関連論文リスト
- Almost-Linear RNNs Yield Highly Interpretable Symbolic Codes in Dynamical Systems Reconstruction [8.473495734873872]
本稿では,時系列データから動的システム(DS)のPWL表現を自動的かつ堅牢に生成する,ニアリカレントニューラルネットワーク(AL-RNN)を提案する。
AL-RNNは、動的システム再構成(DSR)のための任意のSOTAアルゴリズムで効率的に訓練できる
我々は,ロレンツとR"オスラー系に対して,AL-RNNが純粋にデータ駆動方式で,対応するカオスアトラクションの位相的に最小のPWL表現を発見することを示す。
論文 参考訳(メタデータ) (2024-10-18T07:44:12Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文 参考訳(メタデータ) (2024-06-03T15:25:13Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Assessing the Unitary RNN as an End-to-End Compositional Model of Syntax [0.0]
LSTMとユニタリ進化リカレントニューラルネットワーク(URN)の両方が,2種類の構文パターンの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-08-11T09:30:49Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。