論文の概要: Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures
- arxiv url: http://arxiv.org/abs/2212.06757v1
- Date: Tue, 13 Dec 2022 17:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:53:09.493097
- Title: Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures
- Title(参考訳): ガウス共変量モデルにおける勾配流:学習曲線の正確な解と多重降下構造
- Authors: Antione Bodin, Nicolas Macris
- Abstract要約: 一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
- 参考スコア(独自算出の注目度): 14.578025146641806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent line of work has shown remarkable behaviors of the generalization
error curves in simple learning models. Even the least-squares regression has
shown atypical features such as the model-wise double descent, and further
works have observed triple or multiple descents. Another important
characteristic are the epoch-wise descent structures which emerge during
training. The observations of model-wise and epoch-wise descents have been
analytically derived in limited theoretical settings (such as the random
feature model) and are otherwise experimental. In this work, we provide a full
and unified analysis of the whole time-evolution of the generalization curve,
in the asymptotic large-dimensional regime and under gradient-flow, within a
wider theoretical setting stemming from a gaussian covariate model. In
particular, we cover most cases already disparately observed in the literature,
and also provide examples of the existence of multiple descent structures as a
function of a model parameter or time. Furthermore, we show that our
theoretical predictions adequately match the learning curves obtained by
gradient descent over realistic datasets. Technically we compute averages of
rational expressions involving random matrices using recent developments in
random matrix theory based on "linear pencils". Another contribution, which is
also of independent interest in random matrix theory, is a new derivation of
related fixed point equations (and an extension there-off) using Dyson brownian
motions.
- Abstract(参考訳): 最近の研究は、単純な学習モデルにおける一般化誤差曲線の顕著な挙動を示している。
最小二乗回帰でさえ、モデルワイド二重降下のような非定型的な特徴を示しており、さらに3重あるいは複数の降下を観測している。
もう一つの重要な特徴は、訓練中に出現するエポックな下降構造である。
モデルワイドおよびエポックワイド降下の観測は、限定された理論的設定(ランダム特徴モデルなど)で解析的に導出され、それ以外の実験である。
本研究では,gaussian covariateモデルに基づくより広い理論的設定において,漸近的な大次元構造と勾配流下での一般化曲線全体の時間発展を完全かつ統一的に解析する。
特に,本論文では,すでに異種の症例が報告されており,モデルパラメータや時間の関数として複数の降下構造が存在する例も紹介している。
さらに,我々の理論的予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
理論的には、ランダム行列を含む有理表現の平均を「線形鉛筆」に基づくランダム行列論の最近の展開を用いて計算する。
乱数行列論にも独立した興味を持つ別の貢献は、ダイソンブラウン運動を用いた関連する不動点方程式(およびそれによる拡張)の新しい導出である。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Model, sample, and epoch-wise descents: exact solution of gradient flow
in the random feature model [16.067228939231047]
勾配流下での一般化および訓練誤差の全時間的挙動を解析する。
システムサイズが大きければ、両方のエラーの完全な時間進化経路を解析的に計算できることが示される。
我々の手法は、線形鉛筆に基づく最近のランダム行列法とともに、誤差のコーシー複素積分表現に基づいている。
論文 参考訳(メタデータ) (2021-10-22T14:25:54Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Asymptotics of Ridge Regression in Convolutional Models [26.910291664252973]
特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。
畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。
論文 参考訳(メタデータ) (2021-03-08T05:56:43Z) - Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。
我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文 参考訳(メタデータ) (2021-03-02T06:59:52Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Dimension Independent Generalization Error by Stochastic Gradient
Descent [12.474236773219067]
本稿では, 局所凸損失関数に対する降下(SGD)解の一般化誤差に関する理論を提案する。
一般化誤差は$p$次元に依存したり、低効用$p$対数因子に依存しないことを示す。
論文 参考訳(メタデータ) (2020-03-25T03:08:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。