論文の概要: A dynamic view of the double descent
- arxiv url: http://arxiv.org/abs/2505.01751v1
- Date: Sat, 03 May 2025 09:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.254902
- Title: A dynamic view of the double descent
- Title(参考訳): 二重降下の動的考察
- Authors: Vivek Shripad Borkar,
- Abstract要約: 過度にパラメータ化されたニューラルネットワークは二重降下現象を示す。
時間領域におけるこの現象の1つが、エポックな訓練の文脈で注目されている。
このノートは、2つの時間スケール近似と特異微分方程式の理論を用いて、妥当な説明を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been observed by Belkin et al.\ that overparametrized neural networks exhibit a `double descent' phenomenon. That is, as the model complexity, as reflected in the number of features, increases, the training error initially decreases, then increases, and then decreases again. A counterpart of this phenomenon in the time domain has been noted in the context of epoch-wise training, viz., that the training error decreases with time, then increases, then decreases again. This note presents a plausible explanation for this phenomenon by using the theory of two time scale stochastic approximation and singularly perturbed differential equations, applied to the continuous time limit of the gradient dynamics. This adds a `dynamic' angle to an already well studied theme.
- Abstract(参考訳): ベルキンらによって、過度にパラメータ化されたニューラルネットワークが「二重降下」現象を示すことが観察されている。
つまり、モデルの複雑さが機能の数に反映されるにつれて、トレーニングエラーは最初は減少し、その後は増加し、その後再び減少します。
時間領域におけるこの現象の1つが、時間とともにトレーニングエラーが減少し、その後再び減少するという、エポックな訓練の文脈で指摘されている。
本論文は,2つの時間スケール確率近似と特異摂動微分方程式の理論を用いて,勾配力学の連続時間限界に適用することにより,この現象のもっともらしい説明を述べる。
これは、既によく研究されているテーマに'dynamic'角を追加する。
関連論文リスト
- New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。
摂動に対するネットワークの応答はカオスから安定への移行を示す。
また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文 参考訳(メタデータ) (2025-05-20T04:03:52Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - The Closed and Open Unbalanced Dicke Trimer Model: Critical Properties
and Nonlinear Semiclassical Dynamics [5.824077816472029]
我々は最近導入されたディック・トリマーモデルの一般化について研究する。
極端に不均衡な極限では、Tavis-Cummingsモデルの対称性が復元される。
自明かつ非自明な動的シグネチャを特徴とする非平衡相の出現を観察する。
論文 参考訳(メタデータ) (2023-03-21T11:23:18Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Noise-induced degeneration in online learning [0.0]
定性勾配下降では観測されない騒音による変性として高原現象が出現することを示す。
ここで観察されるノイズによる変性は、ニューラルネットワークによる幅広い機械学習のクラスで見られることが期待されている。
論文 参考訳(メタデータ) (2020-08-24T15:03:58Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Feedback-induced instabilities and dynamics in the Jaynes-Cummings model [62.997667081978825]
時間遅延コヒーレントフィードバックを受けるJaynes-Cummingsモデルのコヒーレンスと定常状態特性について検討する。
導入されたフィードバックは、システムの動的応答と定常量子特性を質的に修正する。
論文 参考訳(メタデータ) (2020-06-20T10:07:01Z) - Data-Dependence of Plateau Phenomenon in Learning with Neural Network
--- Statistical Mechanical Analysis [5.299781502918034]
学習の過程で損失値の減少が止まるプラトー現象は、様々な研究者によって報告されている。
本稿では,統計力学的定式化を用いて,高原現象と得られたデータの統計的特性との関係を明らかにする。
論文 参考訳(メタデータ) (2020-01-10T10:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。