論文の概要: Model, sample, and epoch-wise descents: exact solution of gradient flow
in the random feature model
- arxiv url: http://arxiv.org/abs/2110.11805v1
- Date: Fri, 22 Oct 2021 14:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:48:54.462322
- Title: Model, sample, and epoch-wise descents: exact solution of gradient flow
in the random feature model
- Title(参考訳): モデル, サンプルおよびエポックワイズ降下: ランダム特徴モデルにおける勾配流の厳密解
- Authors: Antoine Bodin and Nicolas Macris
- Abstract要約: 勾配流下での一般化および訓練誤差の全時間的挙動を解析する。
システムサイズが大きければ、両方のエラーの完全な時間進化経路を解析的に計算できることが示される。
我々の手法は、線形鉛筆に基づく最近のランダム行列法とともに、誤差のコーシー複素積分表現に基づいている。
- 参考スコア(独自算出の注目度): 16.067228939231047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent evidence has shown the existence of a so-called double-descent and
even triple-descent behavior for the generalization error of deep-learning
models. This important phenomenon commonly appears in implemented neural
network architectures, and also seems to emerge in epoch-wise curves during the
training process. A recent line of research has highlighted that random matrix
tools can be used to obtain precise analytical asymptotics of the
generalization (and training) errors of the random feature model. In this
contribution, we analyze the whole temporal behavior of the generalization and
training errors under gradient flow for the random feature model. We show that
in the asymptotic limit of large system size the full time-evolution path of
both errors can be calculated analytically. This allows us to observe how the
double and triple descents develop over time, if and when early stopping is an
option, and also observe time-wise descent structures. Our techniques are based
on Cauchy complex integral representations of the errors together with recent
random matrix methods based on linear pencils.
- Abstract(参考訳): 最近の証拠は、深層学習モデルの一般化誤差に対して、いわゆる二重発色と三重発色が存在することを示している。
この重要な現象は、実装されたニューラルネットワークアーキテクチャによく現れ、トレーニングプロセス中にエポックな曲線に現れる。
最近の研究は、ランダムな特徴モデルの一般化(および訓練)エラーの正確な解析的漸近を求めるためにランダムな行列ツールが利用できることを強調している。
本研究では,ランダム特徴モデルのための勾配流れ下での一般化とトレーニング誤差の時間的挙動を解析した。
システム規模の漸近限界において,両誤差の完全な時間発展経路を解析的に計算できることを示す。
これにより、二重降下と三重降下が時間とともにどのように発達するか、早期停止が選択可能であれば、また時間軸降下構造も観察できる。
本手法は,誤りのコーシー複素積分表現と,線形鉛筆に基づく最近のランダム行列法に基づいている。
関連論文リスト
- Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。
線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Asymptotics of Ridge Regression in Convolutional Models [26.910291664252973]
特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。
畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。
論文 参考訳(メタデータ) (2021-03-08T05:56:43Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Generalization Error of Generalized Linear Models in High Dimensions [25.635225717360466]
任意の非線形性を持つニューラルネットワークを特徴付けるためのフレームワークを提供する。
正規ロジスティック回帰が学習に与える影響を解析する。
また,本モデルでは,特別事例の学習と配布の事例も捉えている。
論文 参考訳(メタデータ) (2020-05-01T02:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。