論文の概要: Dichotomy of Feature Learning and Unlearning: Fast-Slow Analysis on Neural Networks with Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2602.07378v1
- Date: Sat, 07 Feb 2026 05:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.593396
- Title: Dichotomy of Feature Learning and Unlearning: Fast-Slow Analysis on Neural Networks with Stochastic Gradient Descent
- Title(参考訳): 特徴学習と非学習の二分法:確率勾配の未熟なニューラルネットワークの高速スロー解析
- Authors: Shota Imai, Sota Nishiyama, Masaaki Imaizumi,
- Abstract要約: 本研究では,大きなバッチ勾配で更新された2層ニューラルネットワークの無限幅限界を考察し,時間スケールの異なる微分方程式を導出する。
スローダイナミクスによって決定される臨界多様体上の流れの方向は、特徴未学習が発生するかどうかを決定する。
その結果, (i)データにおける一次非線形項の強さは特徴非学習を誘導し, (ii)第2層重みの初期スケールは特徴非学習を緩和することがわかった。
- 参考スコア(独自算出の注目度): 5.5165579223151795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamics of gradient-based training in neural networks often exhibit nontrivial structures; hence, understanding them remains a central challenge in theoretical machine learning. In particular, a concept of feature unlearning, in which a neural network progressively loses previously learned features over long training, has gained attention. In this study, we consider the infinite-width limit of a two-layer neural network updated with a large-batch stochastic gradient, then derive differential equations with different time scales, revealing the mechanism and conditions for feature unlearning to occur. Specifically, we utilize the fast-slow dynamics: while an alignment of first-layer weights develops rapidly, the second-layer weights develop slowly. The direction of a flow on a critical manifold, determined by the slow dynamics, decides whether feature unlearning occurs. We give numerical validation of the result, and derive theoretical grounding and scaling laws of the feature unlearning. Our results yield the following insights: (i) the strength of the primary nonlinear term in data induces the feature unlearning, and (ii) an initial scale of the second-layer weights mitigates the feature unlearning. Technically, our analysis utilizes Tensor Programs and the singular perturbation theory.
- Abstract(参考訳): ニューラルネットワークにおける勾配に基づくトレーニングのダイナミクスは、しばしば非自明な構造を示す。
特に、ニューラルネットワークが長期トレーニングで学習済みの機能を徐々に失う機能アンラーニングの概念が注目されている。
本研究では,大規模確率勾配で更新された2層ニューラルネットワークの無限幅限界を考慮した上で,時間スケールの異なる微分方程式を導出し,特徴未学習の発生機構と条件を明らかにする。
具体的には、第1層重みのアライメントが急速に向上する一方、第2層重みはゆっくりと成長する。
スローダイナミクスによって決定される臨界多様体上の流れの方向は、特徴未学習が発生するかどうかを決定する。
結果の数値検証を行い, 特徴学習の理論的根拠とスケーリング法則を導出する。
結果、以下の知見を得た。
一 データの一次非線形項の強みは、その特徴を未学習に誘導し、
(ii)第2層重みの最初の尺度は、学習しない特徴を緩和する。
技術的には、テンソルプログラムと特異摂動理論を利用する。
関連論文リスト
- Explaining Grokking and Information Bottleneck through Neural Collapse Emergence [33.22494588674352]
本稿では,グルーキングの統一的な説明と,神経崩壊のレンズによる情報ボトルネック原理について述べる。
本研究では,集団の集団間分散の縮小が,情報ボトルネックとグルーキングの両根底にある重要な要因であることを示す。
神経崩壊のダイナミクスを解析することにより、トレーニングセットの適合と神経崩壊の進行の間に異なる時間スケールが、後期現象の挙動に関係していることが示される。
論文 参考訳(メタデータ) (2025-09-25T07:17:41Z) - Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks [10.591718074748895]
本研究では,2層ニューラルネットワークの動的平均場理論による学習ダイナミクスについて検討する。
大きなネットワーク幅$m$と入力次元$n/d$あたりのサンプル数に対して、トレーニングダイナミクスは時間スケールの分離を示す。
論文 参考訳(メタデータ) (2025-02-28T17:45:26Z) - A ghost mechanism: An analytical model of abrupt learning [6.509233267425589]
一次元のシステムでさえ、分岐よりもゴーストポイントを通して突然学習できることを示す。
本モデルは,突発学習のための分岐のない機構を明らかにし,学習力学の安定化における意図的不確実性と冗長性の両方の重要性を示す。
論文 参考訳(メタデータ) (2025-01-04T20:49:20Z) - Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics [6.349503549199403]
我々は、ディープ・ワイド・ニューラルネットワークの学習プロセスのための包括的なフレームワークを提供する。
拡散相を特徴づけることで、私たちの研究は脳内の表現的ドリフトに光を当てます。
論文 参考訳(メタデータ) (2023-09-08T18:00:01Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。