論文の概要: A dynamic view of the double descent
- arxiv url: http://arxiv.org/abs/2505.01751v1
- Date: Sat, 03 May 2025 09:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.254902
- Title: A dynamic view of the double descent
- Title(参考訳): 二重降下の動的考察
- Authors: Vivek Shripad Borkar,
- Abstract要約: 過度にパラメータ化されたニューラルネットワークは二重降下現象を示す。
時間領域におけるこの現象の1つが、エポックな訓練の文脈で注目されている。
このノートは、2つの時間スケール近似と特異微分方程式の理論を用いて、妥当な説明を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been observed by Belkin et al.\ that overparametrized neural networks exhibit a `double descent' phenomenon. That is, as the model complexity, as reflected in the number of features, increases, the training error initially decreases, then increases, and then decreases again. A counterpart of this phenomenon in the time domain has been noted in the context of epoch-wise training, viz., that the training error decreases with time, then increases, then decreases again. This note presents a plausible explanation for this phenomenon by using the theory of two time scale stochastic approximation and singularly perturbed differential equations, applied to the continuous time limit of the gradient dynamics. This adds a `dynamic' angle to an already well studied theme.
- Abstract(参考訳): ベルキンらによって、過度にパラメータ化されたニューラルネットワークが「二重降下」現象を示すことが観察されている。
つまり、モデルの複雑さが機能の数に反映されるにつれて、トレーニングエラーは最初は減少し、その後は増加し、その後再び減少します。
時間領域におけるこの現象の1つが、時間とともにトレーニングエラーが減少し、その後再び減少するという、エポックな訓練の文脈で指摘されている。
本論文は,2つの時間スケール確率近似と特異摂動微分方程式の理論を用いて,勾配力学の連続時間限界に適用することにより,この現象のもっともらしい説明を述べる。
これは、既によく研究されているテーマに'dynamic'角を追加する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。