論文の概要: The Slow Deterioration of the Generalization Error of the Random Feature
Model
- arxiv url: http://arxiv.org/abs/2008.05621v1
- Date: Thu, 13 Aug 2020 00:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:38:47.384499
- Title: The Slow Deterioration of the Generalization Error of the Random Feature
Model
- Title(参考訳): ランダム特徴モデルの一般化誤差の緩やかな劣化
- Authors: Chao Ma, Lei Wu, Weinan E
- Abstract要約: 理論的、実験的に、作業中に動的自己補正機構があることが示される。
これにより、トレーニングプロセスを止めて、優れた一般化特性を持つソリューションを得るのに十分な時間が得られる。
- 参考スコア(独自算出の注目度): 12.865834066050427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The random feature model exhibits a kind of resonance behavior when the
number of parameters is close to the training sample size. This behavior is
characterized by the appearance of large generalization gap, and is due to the
occurrence of very small eigenvalues for the associated Gram matrix. In this
paper, we examine the dynamic behavior of the gradient descent algorithm in
this regime. We show, both theoretically and experimentally, that there is a
dynamic self-correction mechanism at work: The larger the eventual
generalization gap, the slower it develops, both because of the small
eigenvalues. This gives us ample time to stop the training process and obtain
solutions with good generalization property.
- Abstract(参考訳): ランダム特徴モデルは、パラメータの数がトレーニングサンプルサイズに近くなると、ある種の共鳴挙動を示す。
この挙動は、大きな一般化ギャップの出現が特徴であり、関連するグラム行列に対する非常に小さな固有値の発生によるものである。
本稿では,本手法における勾配降下アルゴリズムの動的挙動について検討する。
理論上も実験的にも、作業中に動的自己補正機構があることが示される: 結果の一般化ギャップが大きいほど、その発展が遅くなる。
これにより、トレーニングプロセスを止めて、優れた一般化特性を持つソリューションを得るのに十分な時間が得られる。
関連論文リスト
- Generalization for Least Squares Regression With Simple Spiked Covariances [3.9134031118910264]
勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
論文 参考訳(メタデータ) (2024-10-17T19:46:51Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Model, sample, and epoch-wise descents: exact solution of gradient flow
in the random feature model [16.067228939231047]
勾配流下での一般化および訓練誤差の全時間的挙動を解析する。
システムサイズが大きければ、両方のエラーの完全な時間進化経路を解析的に計算できることが示される。
我々の手法は、線形鉛筆に基づく最近のランダム行列法とともに、誤差のコーシー複素積分表現に基づいている。
論文 参考訳(メタデータ) (2021-10-22T14:25:54Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Asymptotics of Ridge Regression in Convolutional Models [26.910291664252973]
特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。
畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。
論文 参考訳(メタデータ) (2021-03-08T05:56:43Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。