論文の概要: On the Role of Label Noise in the Feature Learning Process
- arxiv url: http://arxiv.org/abs/2505.18909v1
- Date: Sun, 25 May 2025 00:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.744068
- Title: On the Role of Label Noise in the Feature Learning Process
- Title(参考訳): 特徴学習におけるラベルノイズの役割について
- Authors: Andi Han, Wei Huang, Zhanpeng Zhou, Gang Niu, Wuyang Chen, Junchi Yan, Akiko Takeda, Taiji Suzuki,
- Abstract要約: 各サンプルはラベルに依存しない信号とラベルに依存しない雑音から構成される。
分析では,2つの重要な段階を同定する。第1段階では,ノイズを無視しながら,すべてのクリーンサンプルに完全に適合するモデルである。
ステージIIでは、ノイズ方向の勾配が信号の勾配を超え、ノイズのあるサンプルに過度に収まる。
- 参考スコア(独自算出の注目度): 90.49232384723268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning with noisy labels presents significant challenges. In this work, we theoretically characterize the role of label noise from a feature learning perspective. Specifically, we consider a signal-noise data distribution, where each sample comprises a label-dependent signal and label-independent noise, and rigorously analyze the training dynamics of a two-layer convolutional neural network under this data setup, along with the presence of label noise. Our analysis identifies two key stages. In Stage I, the model perfectly fits all the clean samples (i.e., samples without label noise) while ignoring the noisy ones (i.e., samples with noisy labels). During this stage, the model learns the signal from the clean samples, which generalizes well on unseen data. In Stage II, as the training loss converges, the gradient in the direction of noise surpasses that of the signal, leading to overfitting on noisy samples. Eventually, the model memorizes the noise present in the noisy samples and degrades its generalization ability. Furthermore, our analysis provides a theoretical basis for two widely used techniques for tackling label noise: early stopping and sample selection. Experiments on both synthetic and real-world setups validate our theory.
- Abstract(参考訳): ノイズの多いラベルによるディープラーニングは、大きな課題を提示します。
本研究では,特徴学習の観点から,ラベルノイズの役割を理論的に特徴づける。
具体的には,各サンプルがラベルに依存しない信号とラベルに依存しない雑音を含む信号雑音データ分布を考察し,このデータ設定下での2層畳み込みニューラルネットワークのトレーニングダイナミクスとラベルノイズの存在を厳密に解析する。
我々の分析は2つの重要な段階を同定する。
ステージIでは、モデルはすべてのクリーンなサンプル(ラベルノイズのないサンプル)に完全に適合し、ノイズの多いサンプル(ノイズのあるラベルを持つサンプル)を無視します。
この段階では、モデルはクリーンサンプルから信号を学習し、目に見えないデータに基づいてうまく一般化する。
ステージIIでは、トレーニング損失が収束すると、ノイズ方向の勾配が信号の勾配を超え、ノイズのあるサンプルに過度に適合する。
最終的に、モデルはノイズサンプルに存在するノイズを記憶し、その一般化能力を低下させる。
さらに,本分析は,ラベルノイズに対処する2つの手法である早期停止とサンプル選択の理論的基礎を提供する。
合成と実世界の双方の実験により、我々の理論が検証された。
関連論文リスト
- RepFace: Refining Closed-Set Noise with Progressive Label Correction for Face Recognition [7.436952568257183]
顔認識性能はラベルノイズ、特にクローズドセットノイズに大きく影響を受ける。
早期のトレーニングを安定させる新しい枠組みを提案し,サンプルをクリーンであいまいでうるさいグループに分割する。
本手法は,メインストリームの顔データセット上での最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T17:57:33Z) - Rethinking Noisy Label Learning in Real-world Annotation Scenarios from
the Noise-type Perspective [38.24239397999152]
本稿では,雑音ラベル学習のためのサンプル選択に基づく新しい手法であるProto-semiを提案する。
Proto-semiは、すべてのサンプルをウォームアップを通じて信頼性と信頼できないデータセットに分割する。
自信のあるデータセットを活用することで、プロトタイプベクターがクラス特性をキャプチャするために構築される。
実世界の注釈付きデータセットの実証評価は、ノイズラベルから学習する問題の処理において、プロトセミの頑健さを裏付けるものである。
論文 参考訳(メタデータ) (2023-07-28T10:57:38Z) - Instance-dependent Noisy-label Learning with Graphical Model Based Noise-rate Estimation [16.283722126438125]
ラベルノイズ学習(LNL)は、クリーンでノイズの多いラベルサンプルを区別するためにサンプル選択段階を組み込む。
このようなカリキュラムは、トレーニングセットの実際のラベルノイズ率を考慮していないため、準最適である。
本稿では,ほとんどのSOTA (State-of-the-art) LNL法と容易に統合できる新しいノイズレート推定法を用いて,この問題に対処する。
論文 参考訳(メタデータ) (2023-05-31T01:46:14Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。