論文の概要: The Three Stages of Learning Dynamics in High-Dimensional Kernel Methods
- arxiv url: http://arxiv.org/abs/2111.07167v1
- Date: Sat, 13 Nov 2021 18:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 12:12:57.030525
- Title: The Three Stages of Learning Dynamics in High-Dimensional Kernel Methods
- Title(参考訳): 高次元カーネル法における学習ダイナミクスの3段階
- Authors: Nikhil Ghosh, Song Mei, Bin Yu
- Abstract要約: 我々は、SGDトレーニングニューラルネットワークの制限力学である、最小二乗目的のフローのトレーニング力学を考察する。
SGDはより複雑な関数を徐々に学習し、「深い勾配」現象が存在することを示す。
- 参考スコア(独自算出の注目度): 14.294357100033954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To understand how deep learning works, it is crucial to understand the
training dynamics of neural networks. Several interesting hypotheses about
these dynamics have been made based on empirically observed phenomena, but
there exists a limited theoretical understanding of when and why such phenomena
occur.
In this paper, we consider the training dynamics of gradient flow on kernel
least-squares objectives, which is a limiting dynamics of SGD trained neural
networks. Using precise high-dimensional asymptotics, we characterize the
dynamics of the fitted model in two "worlds": in the Oracle World the model is
trained on the population distribution and in the Empirical World the model is
trained on a sampled dataset. We show that under mild conditions on the kernel
and $L^2$ target regression function the training dynamics undergo three stages
characterized by the behaviors of the models in the two worlds. Our theoretical
results also mathematically formalize some interesting deep learning phenomena.
Specifically, in our setting we show that SGD progressively learns more complex
functions and that there is a "deep bootstrap" phenomenon: during the second
stage, the test error of both worlds remain close despite the empirical
training error being much smaller. Finally, we give a concrete example
comparing the dynamics of two different kernels which shows that faster
training is not necessary for better generalization.
- Abstract(参考訳): ディープラーニングの仕組みを理解するためには,ニューラルネットワークのトレーニングダイナミクスを理解することが重要である。
これらの力学に関するいくつかの興味深い仮説は、経験的に観察された現象に基づいているが、そのような現象がいつ、なぜ起こるのかに関する理論的な理解は限られている。
本稿では,sgd学習ニューラルネットワークの限界ダイナミクスであるカーネル最小二乗対象における勾配流れの学習ダイナミクスについて考察する。
精度の高い高次元の漸近的手法を用いて、適合したモデルのダイナミクスを2つの「世界」で特徴づける: オラクルワールドでは、モデルは人口分布に基づいて訓練され、実証ワールドでは、モデルはサンプルデータセットで訓練される。
カーネル上の穏やかな条件と$l^2$目標回帰関数の下では、トレーニングダイナミクスは2つの世界のモデルの振る舞いによって特徴づけられる3つの段階を示す。
我々の理論的結果は、興味深い深層学習現象を数学的に定式化する。
具体的には、sgdがより複雑な関数を徐々に学習し、「ディープブートストラップ」現象があることを示し、第2段階では、経験的トレーニングエラーがはるかに小さいにもかかわらず、両世界のテストエラーは近いままである。
最後に、2つの異なるカーネルのダイナミクスを比較し、より高速なトレーニングはより良い一般化には必要ないことを示す具体例を示す。
関連論文リスト
- Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models [13.283281356356161]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する調査結果をレビューする。
ニューラルネットワークが、目に見えないデータでうまく一般化できるソリューションを見つける方法に答えようとする論文」をレビューする。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Knowledge-based Deep Learning for Modeling Chaotic Systems [7.075125892721573]
本稿では,極端事象とその力学を考察し,知識ベースディープラーニング(KDL)と呼ばれる,深層ニューラルネットワークに基づくモデルを提案する。
提案するKDLは,実データとシミュレーションデータとの協調学習により,カオスシステムを管理する複雑なパターンを学習することができる。
我々は,エルニーニョ海表面温度,サンフアン・デング熱感染,ブヨルノヤ日降水という3つの実世界のベンチマークデータセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-09-09T11:46:25Z) - Decomposed Linear Dynamical Systems (dLDS) for learning the latent
components of neural dynamics [6.829711787905569]
本稿では,時系列データの非定常および非線形の複雑なダイナミクスを表現した新しい分解力学系モデルを提案する。
我々のモデルは辞書学習によって訓練され、最近の結果を利用してスパースベクトルを時間とともに追跡する。
連続時間と離散時間の両方の指導例において、我々のモデルは元のシステムによく近似できることを示した。
論文 参考訳(メタデータ) (2022-06-07T02:25:38Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z) - SGD Distributional Dynamics of Three Layer Neural Networks [7.025709586759655]
本稿は,Mei et alの平均場結果を拡張することを目的とする。
1つの隠れ層を持つ2つのニューラルネットワークから、2つの隠れ層を持つ3つのニューラルネットワークへ。
sgd は非線形微分方程式の組によって捉えられ、2つの層におけるダイナミクスの分布は独立であることが証明される。
論文 参考訳(メタデータ) (2020-12-30T04:37:09Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。