論文の概要: On the Curse of Memory in Recurrent Neural Networks: Approximation and Optimization Analysis
- arxiv url: http://arxiv.org/abs/2009.07799v3
- Date: Fri, 30 Aug 2024 14:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:50:35.781741
- Title: On the Curse of Memory in Recurrent Neural Networks: Approximation and Optimization Analysis
- Title(参考訳): リカレントニューラルネットワークにおけるメモリの曲線について:近似と最適化解析
- Authors: Zhong Li, Jiequn Han, Weinan E, Qianxiao Li,
- Abstract要約: 本稿では,線形関係から生成されたデータから連続時間線形RNNを学習するための単純だが代表的な設定について考察する。
このような線形汎函数の普遍近似定理を証明し、近似率とそのメモリとの関係を特徴づける。
統一されたテーマはメモリの非自明な効果であり、これは我々のフレームワークで正確に記述できる概念である。
- 参考スコア(独自算出の注目度): 30.75240284934018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the approximation properties and optimization dynamics of recurrent neural networks (RNNs) when applied to learn input-output relationships in temporal data. We consider the simple but representative setting of using continuous-time linear RNNs to learn from data generated by linear relationships. Mathematically, the latter can be understood as a sequence of linear functionals. We prove a universal approximation theorem of such linear functionals, and characterize the approximation rate and its relation with memory. Moreover, we perform a fine-grained dynamical analysis of training linear RNNs, which further reveal the intricate interactions between memory and learning. A unifying theme uncovered is the non-trivial effect of memory, a notion that can be made precise in our framework, on approximation and optimization: when there is long term memory in the target, it takes a large number of neurons to approximate it. Moreover, the training process will suffer from slow downs. In particular, both of these effects become exponentially more pronounced with memory - a phenomenon we call the "curse of memory". These analyses represent a basic step towards a concrete mathematical understanding of new phenomenon that may arise in learning temporal relationships using recurrent architectures.
- Abstract(参考訳): 本研究では、時間的データにおける入出力関係の学習に適用した場合に、リカレントニューラルネットワーク(RNN)の近似特性と最適化ダイナミクスについて検討する。
本稿では,線形関係から生成されたデータから連続時間線形RNNを学習するための単純だが代表的な設定について考察する。
数学的には、後者は線型汎函数の列として理解することができる。
このような線形汎函数の普遍近似定理を証明し、近似率とそのメモリとの関係を特徴づける。
さらに,線形RNNの微粒化解析を行い,記憶と学習の複雑な相互作用を明らかにする。
統一されたテーマはメモリの非自明な効果であり、この概念は我々のフレームワークで正確に近似と最適化に有効である: ターゲットに長期記憶がある場合、それを近似するために多数のニューロンが必要となる。
さらに、トレーニングプロセスはスローダウンに悩まされる。
特に、これら2つの効果は、指数関数的にメモリと共に発音される。
これらの分析は、繰り返しアーキテクチャを用いて時間的関係を学習する際に生じる新しい現象を数学的に理解するための基本的なステップである。
関連論文リスト
- Demolition and Reinforcement of Memories in Spin-Glass-like Neural
Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。
構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文 参考訳(メタデータ) (2024-03-04T23:12:42Z) - PRES: Toward Scalable Memory-Based Dynamic Graph Neural Networks [22.47336262812308]
メモリベースの動的グラフニューラルネットワーク(MDGNN)は、動的グラフニューラルネットワークのファミリーであり、メモリモジュールを利用して、長期の時間的依存関係を抽出、抽出、抽出する。
本稿では,時間的バッチサイズが大きいMDGNNの訓練における時間的不連続性に着目し,大規模MDGNNの効率的な訓練について検討する。
論文 参考訳(メタデータ) (2024-02-06T01:34:56Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Inverse Approximation Theory for Nonlinear Recurrent Neural Networks [28.840757822712195]
我々は、リカレントニューラルネットワーク(RNN)を用いた非線形列列列関係の近似に対する逆近似定理を証明した。
非線形RNNによって安定に近似できる非線形シーケンス関係は指数的に減衰するメモリ構造を持つ必要があることを示す。
これにより、線形RNNにおける以前同定されたメモリの呪いが一般的な非線形設定に拡張される。
論文 参考訳(メタデータ) (2023-05-30T16:34:28Z) - Neuronal architecture extracts statistical temporal patterns [1.9662978733004601]
情報表現や処理に高次時間的(コ-)ゆらぎをいかに利用できるかを示す。
単純な生物学的にインスパイアされたフィードフォワードニューロンモデルでは、時系列分類を行うために3階までの累積から情報を抽出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:21:33Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Slow manifolds in recurrent networks encode working memory efficiently
and robustly [0.0]
ワーキングメモリ(working memory)は、潜在情報の保存と操作を短時間で行う認知機能である。
作業メモリのネットワークレベルメカニズムを調べるために,トップダウンモデリング手法を用いる。
論文 参考訳(メタデータ) (2021-01-08T18:47:02Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。