論文の概要: On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD
- arxiv url: http://arxiv.org/abs/2603.10397v1
- Date: Wed, 11 Mar 2026 04:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.778885
- Title: On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD
- Title(参考訳): ラベルノイズSGDを用いた二層線形ネットワークの学習ダイナミクスについて
- Authors: Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan,
- Abstract要約: ラベル雑音による勾配降下の学習力学について検討する。
遅延からリッチな体制への移行を駆動する上で,ラベルノイズが重要な役割を担っていることを強調する。
これらの知見をSAM(Sharpness-Aware Minimization)に拡張し、ラベルノイズSGDを規定する原理がより広範な最適化アルゴリズムにも適用可能であることを示す。
- 参考スコア(独自算出の注目度): 93.70725920710208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One crucial factor behind the success of deep learning lies in the implicit bias induced by noise inherent in gradient-based training algorithms. Motivated by empirical observations that training with noisy labels improves model generalization, we delve into the underlying mechanisms behind stochastic gradient descent (SGD) with label noise. Focusing on a two-layer over-parameterized linear network, we analyze the learning dynamics of label noise SGD, unveiling a two-phase learning behavior. In \emph{Phase I}, the magnitudes of model weights progressively diminish, and the model escapes the lazy regime; enters the rich regime. In \emph{Phase II}, the alignment between model weights and the ground-truth interpolator increases, and the model eventually converges. Our analysis highlights the critical role of label noise in driving the transition from the lazy to the rich regime and minimally explains its empirical success. Furthermore, we extend these insights to Sharpness-Aware Minimization (SAM), showing that the principles governing label noise SGD also apply to broader optimization algorithms. Extensive experiments, conducted under both synthetic and real-world setups, strongly support our theory. Our code is released at https://github.com/a-usually/Label-Noise-SGD.
- Abstract(参考訳): ディープラーニングの成功の背後にある重要な要因の1つは、勾配に基づくトレーニングアルゴリズムに固有のノイズによって引き起こされる暗黙のバイアスである。
雑音のあるラベルを用いたトレーニングがモデル一般化を改善するという経験的観察により、我々はラベルノイズを伴う確率勾配降下(SGD)の背後にあるメカニズムを探求した。
2層オーバーパラメータ化線形ネットワークに着目し,ラベルノイズSGDの学習ダイナミクスを解析し,2相学習挙動を明らかにする。
emph{Phase I} では、モデルウェイトの大きさは徐々に減少し、モデルは遅延状態から逃れ、リッチな状態に入る。
\emph{Phase II} では、モデルウェイトと接地トラス補間子のアライメントが増加し、最終的にモデルが収束する。
我々の分析は、遅延からリッチな体制への移行を促進する上でのラベルノイズの重要性を強調し、その経験的成功を最小限に説明する。
さらに、これらの知見をSAM(Sharpness-Aware Minimization)に拡張し、ラベルノイズSGDを規定する原理がより広範な最適化アルゴリズムにも適用可能であることを示す。
総合的な実験は、人工と現実世界の両方で行われ、我々の理論を強く支持している。
私たちのコードはhttps://github.com/a- usually/Label-Noise-SGDでリリースされています。
関連論文リスト
- How Does Label Noise Gradient Descent Improve Generalization in the Low SNR Regime? [78.0226274470175]
我々は、勾配更新にラベルノイズを導入することで、ニューラルネットワーク(NN)のテスト性能が向上するかどうか検討する。
学習中のラベルノイズの付加は,学習過程を支配することを防止し,雑音の記憶を抑制することを実証する。
対照的に、標準GDで訓練されたNNは、同じ低SNR環境でのノイズに過度に適応する傾向にある。
論文 参考訳(メタデータ) (2025-10-20T13:28:13Z) - Robust OOD Graph Learning via Mean Constraints and Noise Reduction [4.234842954797706]
Graph Out-of-Distribution (OOD)分類は、特にカテゴリーの不均衡と構造的ノイズの下で、急激なパフォーマンス低下に悩まされることが多い。
本研究は,(1)スキューラベル分布によるマイノリティクラスの性能低下,(2)グラフデータにおける構造ノイズに対する感度向上という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-06-24T03:25:33Z) - Stochastic Resetting Mitigates Latent Gradient Bias of SGD from Label Noise [2.048226951354646]
本稿では,チェックポイントからのリセットにより,ディープニューラルネットワーク(DNN)をノイズラベルでトレーニングする際の一般化性能が大幅に向上することを示す。
ノイズの多いラベルが存在する場合、DNNはまずデータの一般的なパターンを学習するが、徐々に破損したデータを記憶し、過度に適合する。
勾配降下(SGD)のダイナミクスを分解することにより,雑音ラベルによる遅延勾配バイアスの挙動を同定し,一般化を損なう。
論文 参考訳(メタデータ) (2024-06-01T10:45:41Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Dynamics-Aware Loss for Learning with Label Noise [73.75129479936302]
ディープニューラルネットワーク(DNN)にラベルノイズが深刻な脅威をもたらす
本稿では,この問題を解決するためにDAL(Dynamics-Aware Los)を提案する。
詳細な理論的解析と広範な実験結果の両方が,本手法の優位性を示している。
論文 参考訳(メタデータ) (2023-03-21T03:05:21Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Learning to Rectify for Robust Learning with Noisy Labels [25.149277009932423]
分類ネットワークのトレーニング手順を適応的に修正するためのワープ確率推論(WarPI)を提案する。
雑音ラベルによる頑健な学習の4つのベンチマークでWarPIを評価し, 異種雑音下での新たな最先端の学習を実現する。
論文 参考訳(メタデータ) (2021-11-08T02:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。