Fugu-MT 論文翻訳(概要): Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets

論文の概要: Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets

arxiv url: http://arxiv.org/abs/2210.14064v3
Date: Thu, 23 Mar 2023 15:45:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 18:09:05.093325
Title: Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets
Title（参考訳）: 過パラメータ再帰ニューラルネットを用いた低次元状態空間の学習
Authors: Edo Cohen-Karlik, Itamar Menuhin-Gruman, Raja Giryes, Nadav Cohen and Amir Globerson
Abstract要約: 我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
参考スコア（独自算出の注目度）: 57.06026574261203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Overparameterization in deep learning typically refers to settings where a trained neural network (NN) has representational capacity to fit the training data in many ways, some of which generalize well, while others do not. In the case of Recurrent Neural Networks (RNNs), there exists an additional layer of overparameterization, in the sense that a model may exhibit many solutions that generalize well for sequence lengths seen in training, some of which extrapolate to longer sequences, while others do not. Numerous works have studied the tendency of Gradient Descent (GD) to fit overparameterized NNs with solutions that generalize well. On the other hand, its tendency to fit overparameterized RNNs with solutions that extrapolate has been discovered only recently and is far less understood. In this paper, we analyze the extrapolation properties of GD when applied to overparameterized linear RNNs. In contrast to recent arguments suggesting an implicit bias towards short-term memory, we provide theoretical evidence for learning low-dimensional state spaces, which can also model long-term memory. Our result relies on a dynamical characterization which shows that GD (with small step size and near-zero initialization) strives to maintain a certain form of balancedness, as well as on tools developed in the context of the moment problem from statistics (recovery of a probability distribution from its moments). Experiments corroborate our theory, demonstrating extrapolation via learning low-dimensional state spaces with both linear and non-linear RNNs.
Abstract（参考訳）: ディープラーニングの過剰パラメータ化(overparameterization in deep learning)は、トレーニングされたニューラルネットワーク(nn)がさまざまな方法でトレーニングデータに適合する表現能力を持つ設定を指すことが多い。リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)では、トレーニングで見られるシーケンス長を一般化する多くのソリューションをモデルが示せるという意味で、オーバーパラメータ化(overparameterization)という追加層が存在する。多くの研究は、オーバーパラメータ化されたnnによく一般化された解に適合する勾配降下(gd)の傾向を研究している。一方、過パラメータ化されたRNNと外挿法に適合する傾向は、最近発見されたばかりであり、あまり理解されていない。本稿では、過パラメータ化線形RNNに適用した場合のGDの外挿特性を解析する。短期記憶に対する暗黙のバイアスを示唆する最近の議論とは対照的に, 長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。私たちの結果は、gd(小さなステップサイズとほぼゼロのイニシャライズ)が、統計からモーメント問題(モーメントからの確率分布の再確認)の文脈で開発されたツールと同様に、ある種のバランスの維持に努めていることを示す動的特徴付けに依存しています。実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。

関連論文リスト

Local Linear Recovery Guarantee of Deep Neural Networks at Overparameterization [3.3998740964877463]
局所線形リカバリ (LLR) は, 目標関数リカバリの弱い形式である。より狭いDNNで表現可能な関数は、モデルパラメータよりも少ないサンプルから復元可能であることを証明した。
論文参考訳（メタデータ） (2024-06-26T03:08:24Z)
Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。よりスムーズな関数との補間により、より一般化できることを示す。
論文参考訳（メタデータ） (2023-05-30T19:37:44Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Designing Universal Causal Deep Learning Models: The Case of Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。 COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文参考訳（メタデータ） (2022-10-24T14:43:03Z)
How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文参考訳（メタデータ） (2020-09-24T17:48:59Z)
The Neural Tangent Kernel in High Dimensions: Triple Descent and a Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文参考訳（メタデータ） (2020-08-15T20:55:40Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)
Understanding Why Neural Networks Generalize Well Through GSNR of Parameters [11.208337921488207]
ディープニューラルネットワーク(DNN)の訓練過程におけるパラメータの勾配信号と雑音比(GSNR)について検討する。トレーニング中にGSNRが大きくなると、より一般化性能が向上することを示す。
論文参考訳（メタデータ） (2020-01-21T08:33:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。