論文の概要: Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Network
- arxiv url: http://arxiv.org/abs/2210.14064v1
- Date: Tue, 25 Oct 2022 14:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:23:33.707817
- Title: Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Network
- Title(参考訳): 過パラメータリカレントニューラルネットワークによる低次元状態空間の学習
- Authors: Edo Cohen-Karlik, Itamar Menuhin-Gruman, Nadav Cohen, Raja Giryes and
Amir Globerson
- Abstract要約: 長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
この結果は、グラディエント・Descentがある種のバランス性を維持するために努力していることを示す力学的な特徴に依拠している。
- 参考スコア(独自算出の注目度): 57.06026574261203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterization in deep learning typically refers to settings where a
trained Neural Network (NN) has representational capacity to fit the training
data in many ways, some of which generalize well, while others do not. In the
case of Recurrent Neural Networks (RNNs), there exists an additional layer of
overparameterization, in the sense that a model may exhibit many solutions that
generalize well for sequence lengths seen in training, some of which
extrapolate to longer sequences, while others do not. Numerous works studied
the tendency of Gradient Descent (GD) to fit overparameterized NNs with
solutions that generalize well. On the other hand, its tendency to fit
overparameterized RNNs with solutions that extrapolate has been discovered only
lately, and is far less understood. In this paper, we analyze the extrapolation
properties of GD when applied to overparameterized linear RNNs. In contrast to
recent arguments suggesting an implicit bias towards short-term memory, we
provide theoretical evidence for learning low dimensional state spaces, which
can also model long-term memory. Our result relies on a dynamical
characterization which shows that GD (with small step size and near-zero
initialization) strives to maintain a certain form of balancedness, as well as
on tools developed in the context of the moment problem from statistics
(recovery of a probability distribution from its moments). Experiments
corroborate our theory, demonstrating extrapolation via learning low
dimensional state spaces with both linear and non-linear RNNs
- Abstract(参考訳): ディープラーニングの過剰パラメータ化(overparameterization in deep learning)は、トレーニングされたニューラルネットワーク(nn)がさまざまな方法でトレーニングデータに適合する表現能力を持つ設定を指すことが多い。
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)では、トレーニングで見られるシーケンス長を一般化する多くのソリューションをモデルが示せるという意味で、オーバーパラメータ化(overparameterization)という追加層が存在する。
多くの研究は、オーバーパラメータ化されたnnによく一般化された解に適合する勾配降下(gd)の傾向を研究した。
一方、過度にパラメータ化されたRNNと外挿法に適合する傾向は、最近しか発見されておらず、あまり理解されていない。
本稿では、過パラメータ化線形RNNに適用した場合のGDの外挿特性を解析する。
短期記憶に対する暗黙のバイアスを示唆する最近の議論とは対照的に, 長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
私たちの結果は、gd(小さなステップサイズとほぼゼロのイニシャライズ)が、統計からモーメント問題(モーメントからの確率分布の再確認)の文脈で開発されたツールと同様に、ある種のバランスの維持に努めていることを示す動的特徴付けに依存しています。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付ける。
関連論文リスト
- Local Linear Recovery Guarantee of Deep Neural Networks at Overparameterization [3.3998740964877463]
局所線形リカバリ (LLR) は, 目標関数リカバリの弱い形式である。
より狭いDNNで表現可能な関数は、モデルパラメータよりも少ないサンプルから復元可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-26T03:08:24Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Designing Universal Causal Deep Learning Models: The Case of
Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。
COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。
本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Understanding Why Neural Networks Generalize Well Through GSNR of
Parameters [11.208337921488207]
ディープニューラルネットワーク(DNN)の訓練過程におけるパラメータの勾配信号と雑音比(GSNR)について検討する。
トレーニング中にGSNRが大きくなると、より一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-01-21T08:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。