論文の概要: On the Double Descent of Random Features Models Trained with SGD
- arxiv url: http://arxiv.org/abs/2110.06910v1
- Date: Wed, 13 Oct 2021 17:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:12:07.339611
- Title: On the Double Descent of Random Features Models Trained with SGD
- Title(参考訳): sgdを用いたランダム特徴モデルの二重降下について
- Authors: Fanghui Liu, Johan A.K. Suykens, Volkan Cevher
- Abstract要約: 勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
- 参考スコア(独自算出の注目度): 78.0918823643911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study generalization properties of random features (RF) regression in high
dimensions optimized by stochastic gradient descent (SGD). In this regime, we
derive precise non-asymptotic error bounds of RF regression under both constant
and adaptive step-size SGD setting, and observe the double descent phenomenon
both theoretically and empirically. Our analysis shows how to cope with
multiple randomness sources of initialization, label noise, and data sampling
(as well as stochastic gradients) with no closed-form solution, and also goes
beyond the commonly-used Gaussian/spherical data assumption. Our theoretical
results demonstrate that, with SGD training, RF regression still generalizes
well for interpolation learning, and is able to characterize the double descent
behavior by the unimodality of variance and monotonic decrease of bias.
Besides, we also prove that the constant step-size SGD setting incurs no loss
in convergence rate when compared to the exact minimal-norm interpolator, as a
theoretical justification of using SGD in practice.
- Abstract(参考訳): 確率勾配勾配(SGD)により最適化された高次元におけるランダム特徴(RF)回帰の一般化特性について検討した。
本研究では, 定常・適応的なステップサイズSGD設定下でのRF回帰の非漸近誤差境界を正確に導出し, 理論的・実験的に二重降下現象を観察する。
本研究では,閉形式解をもたない初期化,ラベルノイズ,データサンプリング(確率勾配)の複数のランダム性源に対する対処法を示し,一般のガウス/球面データの仮定を超越した。
理論的には, sgdトレーニングでは, rf回帰は補間学習に適しており, 分散の単様性と偏りの単調な減少によって, 二重降下挙動を特徴付けることができる。
また,SGDを実際に使用する理論的正当性として,一定のステップサイズSGDの設定は,最小限の補間器と比較して収束率を損なわないことも証明した。
関連論文リスト
- Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [6.144680854063938]
本研究では,その収束特性を明らかにするために,ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示した。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - High-dimensional robust regression under heavy-tailed data: Asymptotics and Universality [7.416689632227865]
重み付き雑音の存在下での頑健な回帰推定器の高次元特性について検討する。
整合性にもかかわらず、最適に調整された位置パラメータ$delta$は高次元状態において最適であることを示す。
隆起回帰の余剰リスクに対する崩壊率を導出する。
論文 参考訳(メタデータ) (2023-09-28T14:39:50Z) - Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。
最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文 参考訳(メタデータ) (2023-08-15T23:46:44Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Double Descent in Random Feature Models: Precise Asymptotic Analysis for
General Convex Regularization [4.8900735721275055]
より広い凸正規化項のクラスの下で回帰の一般化を正確に表現する。
我々は,本フレームワークの予測能力を数値的に示すとともに,非漸近的状態においても予測されたテスト誤差が正確であることを実験的に示す。
論文 参考訳(メタデータ) (2022-04-06T08:59:38Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。