論文の概要: Stochastic Resetting Mitigates Latent Gradient Bias of SGD from Label Noise
- arxiv url: http://arxiv.org/abs/2406.00396v2
- Date: Thu, 28 Nov 2024 12:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:58.926466
- Title: Stochastic Resetting Mitigates Latent Gradient Bias of SGD from Label Noise
- Title(参考訳): SGDの遅延勾配バイアスをラベルノイズから緩和する確率的リセット
- Authors: Youngkyoung Bae, Yeongwoo Song, Hawoong Jeong,
- Abstract要約: 本稿では,チェックポイントからのリセットにより,ディープニューラルネットワーク(DNN)をノイズラベルでトレーニングする際の一般化性能が大幅に向上することを示す。
ノイズの多いラベルが存在する場合、DNNはまずデータの一般的なパターンを学習するが、徐々に破損したデータを記憶し、過度に適合する。
勾配降下(SGD)のダイナミクスを分解することにより,雑音ラベルによる遅延勾配バイアスの挙動を同定し,一般化を損なう。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: Giving up and starting over may seem wasteful in many situations such as searching for a target or training deep neural networks (DNNs). Our study, though, demonstrates that resetting from a checkpoint can significantly improve generalization performance when training DNNs with noisy labels. In the presence of noisy labels, DNNs initially learn the general patterns of the data but then gradually memorize the corrupted data, leading to overfitting. By deconstructing the dynamics of stochastic gradient descent (SGD), we identify the behavior of a latent gradient bias induced by noisy labels, which harms generalization. To mitigate this negative effect, we apply the stochastic resetting method to SGD, inspired by recent developments in the field of statistical physics achieving efficient target searches. We first theoretically identify the conditions where resetting becomes beneficial, and then we empirically validate our theory, confirming the significant improvements achieved by resetting. We further demonstrate that our method is both easy to implement and compatible with other methods for handling noisy labels. Additionally, this work offers insights into the learning dynamics of DNNs from an interpretability perspective, expanding the potential to analyze training methods through the lens of statistical physics.
- Abstract(参考訳): 目標の探索やディープニューラルネットワーク(DNN)のトレーニングなど、多くの状況では、諦めてやり直すことは無駄に思えるかも知れません。
しかし,本研究では,チェックポイントからのリセットにより,雑音ラベル付きDNNのトレーニング時の一般化性能が著しく向上することを示した。
ノイズの多いラベルが存在する場合、DNNはまずデータの一般的なパターンを学習するが、徐々に破損したデータを記憶し、過度に適合する。
確率勾配勾配(SGD)のダイナミクスを分解することにより,雑音ラベルによる遅延勾配バイアスの挙動を同定し,一般化を阻害する。
この負の効果を緩和するために、統計物理学の分野における近年の進歩から着想を得た確率的リセット法をSGDに適用し、効率的な目標探索を実現する。
まず、まずリセットが有用となる条件を理論的に同定し、次に、リセットによって達成された重要な改善を実証的に検証する。
さらに,本手法は実装が容易であり,ノイズラベルを扱う他の手法と互換性があることを実証する。
さらに、この研究は、解釈可能性の観点からDNNの学習力学に関する洞察を与え、統計物理学のレンズを通してトレーニング方法を分析する可能性を広げる。
関連論文リスト
- Dynamics-Aware Loss for Learning with Label Noise [73.75129479936302]
ディープニューラルネットワーク(DNN)にラベルノイズが深刻な脅威をもたらす
本稿では,この問題を解決するためにDAL(Dynamics-Aware Los)を提案する。
詳細な理論的解析と広範な実験結果の両方が,本手法の優位性を示している。
論文 参考訳(メタデータ) (2023-03-21T03:05:21Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - Learning from Noisy Labels via Dynamic Loss Thresholding [69.61904305229446]
我々はDLT(Dynamic Loss Thresholding)という新しい手法を提案する。
トレーニングプロセス中、DLTは各サンプルの損失値を記録し、動的損失閾値を算出する。
CIFAR-10/100 と Clothing1M の実験は、最近の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-04-01T07:59:03Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。