Fugu-MT 論文翻訳(概要): Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues

論文の概要: Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues

arxiv url: http://arxiv.org/abs/2307.11888v2
Date: Mon, 11 Mar 2024 17:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 16:49:58.449916
Title: Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues
Title（参考訳）: 線形再帰と非線形射影の普遍性:有限幅保証と複素固有値の利点
Authors: Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L. Smith
Abstract要約: 線形複素数値RNNと線形対角線再帰を組み合わせれば、逐次列列マップの任意の精度で近似できることを示す。我々は、単位ディスクの近くに複雑な固有値(すなわち、SSMにおいて最も成功した戦略)を採用することが、情報を保存する上で、RNNに大いに役立つことを証明した。
参考スコア（独自算出の注目度）: 35.17209370064094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural networks based on linear complex-valued RNNs interleaved with position-wise MLPs are gaining traction as competitive approaches to sequence modeling. Examples of such architectures include state-space models (SSMs) like S4, LRU, and Mamba: recently proposed models that achieve promising performance on text, genetics, and other data that require long-range reasoning. Despite experimental evidence highlighting these architectures' effectiveness and computational efficiency, their expressive power remains relatively unexplored, especially in connection to specific choices crucial in practice - e.g., carefully designed initialization distribution and use of complex numbers. In this paper, we show that combining MLPs with both real or complex linear diagonal recurrences leads to arbitrarily precise approximation of regular causal sequence-to-sequence maps. At the heart of our proof, we rely on a separation of concerns: the linear RNN provides a lossless encoding of the input sequence, and the MLP performs non-linear processing on this encoding. While we show that using real diagonal linear recurrences is enough to achieve universality in this architecture, we prove that employing complex eigenvalues near unit disk - i.e., empirically the most successful strategy in SSMs - greatly helps the RNN in storing information. We connect this finding with the vanishing gradient issue and provide experimental evidence supporting our claims.
Abstract（参考訳）: 線形複素数値RNNに基づくディープニューラルネットワークは、シーケンスモデリングの競争的アプローチとして、位置対応型MLPにインターリーブされた。そのようなアーキテクチャの例として、S4、LRU、Mambaのような状態空間モデル(SSM)がある。これらのアーキテクチャの有効性と計算効率を実証した実験的な証拠にもかかわらず、その表現力は、特に実用上重要な特定の選択(例えば、慎重に設計された初期化分布と複素数の使用)に関連して、比較的未調査のままである。本稿では,MLPと実あるいは複素線形対角線再帰を組み合わせることで,正規因果列列列列マップの任意の精度で近似できることを示す。線形RNNは入力シーケンスのロスレス符号化を提供し、MPPはこの符号化に対して非線形処理を行う。実対角リニアリカレンスを用いることは,このアーキテクチャの普遍性を実現するのに十分であることを示す一方で,単位円板近傍の複雑な固有値(つまり,SSMにおいて最も成功した戦略を実証することで,RNNが情報を保存するのに有効であることを示す。我々はこの発見を消滅する勾配問題と結びつけ、我々の主張を支持する実験的証拠を提供する。

関連論文リスト

Fixed-Point RNNs: From Diagonal to Dense in a Few Iterations [10.851383867834052]
我々は,高密度線形RNNを並列化可能な対角線RNNの固定点として1層に計算する。一般的なおもちゃのタスクである$A_5$, $S_5$, copying, and modular arithmeticsで最先端の結果を得る。
論文参考訳（メタデータ） (2025-03-13T18:50:22Z)
Fréchet Cumulative Covariance Net for Deep Nonlinear Sufficient Dimension Reduction with Random Objects [22.156257535146004]
Fr'echet Cumulative Covariance (FCCov) と呼ばれる新しい統計依存度尺度を導入し、FCCovに基づく新しい非線形SDRフレームワークを開発する。我々のアプローチは複雑な非ユークリッドデータに適用できるだけでなく、外れ値に対する堅牢性も示している。正方形フロベニウスノルム正規化の手法は、$sigma$-fieldレベルで不偏性を達成することを証明している。
論文参考訳（メタデータ） (2025-02-21T10:55:50Z)
Almost-Linear RNNs Yield Highly Interpretable Symbolic Codes in Dynamical Systems Reconstruction [8.473495734873872]
本稿では,時系列データから動的システム(DS)のPWL表現を自動的かつ堅牢に生成する,ニアリカレントニューラルネットワーク(AL-RNN)を提案する。 AL-RNNは、動的システム再構成(DSR)のための任意のSOTAアルゴリズムで効率的に訓練できる我々は,ロレンツとR"オスラー系に対して,AL-RNNが純粋にデータ駆動方式で,対応するカオスアトラクションの位相的に最小のPWL表現を発見することを示す。
論文参考訳（メタデータ） (2024-10-18T07:44:12Z)
Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文参考訳（メタデータ） (2024-08-20T15:04:37Z)
Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文参考訳（メタデータ） (2024-06-03T15:25:13Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
Attentive Multi-Layer Perceptron for Non-autoregressive Generation [46.14195464583495]
非自己回帰(NAR)生成は、その効率性と有効性の増加で人気が高まる。本稿では,線形時間と空間の複雑さを持つ生成モデルを生成するために,新しい変種textbfAttentive textbfMulti-textbfLayer textbfPerceptron(AMLP)を提案する。
論文参考訳（メタデータ） (2023-10-14T06:44:24Z)
Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2022-10-25T14:45:15Z)
Assessing the Unitary RNN as an End-to-End Compositional Model of Syntax [0.0]
LSTMとユニタリ進化リカレントニューラルネットワーク(URN)の両方が,2種類の構文パターンの精度を高めることができることを示す。
論文参考訳（メタデータ） (2022-08-11T09:30:49Z)
How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文参考訳（メタデータ） (2020-09-24T17:48:59Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。