論文の概要: A dynamic view of some anomalous phenomena in SGD
- arxiv url: http://arxiv.org/abs/2505.01751v2
- Date: Thu, 04 Sep 2025 03:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.717275
- Title: A dynamic view of some anomalous phenomena in SGD
- Title(参考訳): SGDにおける異常現象の動的考察
- Authors: Vivek Shripad Borkar,
- Abstract要約: 過度にパラメータ化されたニューラルネットワークは二重降下現象を示すことが観察されている。
もう一つの異常な現象は、下降の2つの規則が第3の規則によって中断され、平均的な損失はほぼ一定であるイットグロキングである。
本稿では、2つの時間スケール近似の理論を連続時間制限力学に適用することにより、これらの現象と関連する現象について、妥当な説明を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been observed by Belkin et al.\ that over-parametrized neural networks exhibit a `double descent' phenomenon. That is, as the model complexity (as reflected in the number of features) increases, the test error initially decreases, then increases, and then decreases again. A counterpart of this phenomenon in the time domain has been noted in the context of epoch-wise training, viz., the test error decreases with the number of iterates, then increases, then decreases again. Another anomalous phenomenon is that of \textit{grokking} wherein two regimes of descent are interrupted by a third regime wherein the mean loss remains almost constant. This note presents a plausible explanation for these and related phenomena by using the theory of two time scale stochastic approximation, applied to the continuous time limit of the gradient dynamics. This gives a novel perspective for an already well studied theme.
- Abstract(参考訳): ベルキンらによって、過度にパラメータ化されたニューラルネットワークが「二重降下」現象を示すことが観察されている。
すなわち、モデル複雑性(機能数に反映されるように)が増加するにつれて、テストエラーは最初は減少し、その後は増加し、その後再び減少する。
時間領域におけるこの現象に匹敵する現象は、エポックな訓練、vz.の文脈で指摘されており、テストエラーは反復数によって減少し、その後増加し、その後再び減少する。
もう一つの異常な現象は「textit{grokking}」であり、降下の2つの状態は、平均損失がほぼ一定である第3の状態によって中断される。
本稿では、勾配力学の連続時間限界に適用した2つの時間スケール確率近似の理論を用いて、これらの現象と関連する現象について、妥当な説明を示す。
これは、既によく研究されているテーマに対する新しい視点を与える。
関連論文リスト
- New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。
摂動に対するネットワークの応答はカオスから安定への移行を示す。
また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文 参考訳(メタデータ) (2025-05-20T04:03:52Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。