論文の概要: Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels
- arxiv url: http://arxiv.org/abs/2301.00545v2
- Date: Tue, 3 Jan 2023 02:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 11:45:50.212152
- Title: Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels
- Title(参考訳): Knockoffs-SPR: ノイズラベルによる学習におけるクリーンサンプル選択
- Authors: Yikai Wang, Yanwei Fu, and Xinwei Sun
- Abstract要約: 雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
- 参考スコア(独自算出の注目度): 44.79124350922491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A noisy training set usually leads to the degradation of the generalization
and robustness of neural networks. In this paper, we propose a novel
theoretically guaranteed clean sample selection framework for learning with
noisy labels. Specifically, we first present a Scalable Penalized Regression
(SPR) method, to model the linear relation between network features and one-hot
labels. In SPR, the clean data are identified by the zero mean-shift parameters
solved in the regression model. We theoretically show that SPR can recover
clean data under some conditions. Under general scenarios, the conditions may
be no longer satisfied; and some noisy data are falsely selected as clean data.
To solve this problem, we propose a data-adaptive method for Scalable Penalized
Regression with Knockoff filters (Knockoffs-SPR), which is provable to control
the False-Selection-Rate (FSR) in the selected clean data. To improve the
efficiency, we further present a split algorithm that divides the whole
training set into small pieces that can be solved in parallel to make the
framework scalable to large datasets. While Knockoffs-SPR can be regarded as a
sample selection module for a standard supervised training pipeline, we further
combine it with a semi-supervised algorithm to exploit the support of noisy
data as unlabeled data. Experimental results on several benchmark datasets and
real-world noisy datasets show the effectiveness of our framework and validate
the theoretical results of Knockoffs-SPR. Our code and pre-trained models will
be released.
- Abstract(参考訳): ノイズの多いトレーニングセットは通常、ニューラルネットワークの一般化と堅牢性の低下につながる。
本稿では,ノイズラベルを用いた学習のための新しいクリーンサンプル選択フレームワークを提案する。
具体的には,ネットワーク特徴量と1ホットラベルとの線形関係をモデル化するために,まずSPR(Scalable Penalized Regression)法を提案する。
SPRでは、クリーンデータは回帰モデルで解決されたゼロ平均シフトパラメータによって識別される。
理論的には、SPRはいくつかの条件下でクリーンなデータを復元できることを示す。
一般的なシナリオでは、条件はもはや満たされず、一部のノイズデータは誤ってクリーンデータとして選択される。
この問題を解決するために,選択したクリーンデータ中のFalse-Selection-Rate(FSR)を制御可能なKnockoffフィルタ(Knockoffs-SPR)を用いたスケーラブルなペナル化回帰法を提案する。
効率を改善するために、トレーニングセット全体を小さな断片に分割して、フレームワークを大規模データセットにスケーラブルにするために並列に解決できる分割アルゴリズムを提案する。
knockoffs-sprは標準教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができるが、半教師付きアルゴリズムと組み合わせることで、ノイズデータのサポートをラベルなしデータとして活用する。
いくつかのベンチマークデータセットと実世界のノイズデータセットの実験結果から、フレームワークの有効性を示し、Knockoffs-SPRの理論的結果を検証する。
私たちのコードと事前訓練されたモデルはリリースされます。
関連論文リスト
- Granular-ball Representation Learning for Deep CNN on Learning with Label Noise [14.082510085545582]
本稿では,CNNモデルに組み込むことが可能な一般粒界計算(GBC)モジュールを提案する。
本研究では,入力サンプルを機能レベルで$gb$のサンプルとして分割し,各サンプルは異なる数を持つ複数のサンプルに対応して1つのラベルを共有できることを示した。
実験により,提案手法は追加データや最適化を伴わずにCNNモデルのロバスト性を向上させることができることが示された。
論文 参考訳(メタデータ) (2024-09-05T05:18:31Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
論文 参考訳(メタデータ) (2022-12-21T04:56:41Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Scalable Penalized Regression for Noise Detection in Learning with Noisy
Labels [44.79124350922491]
理論的に保証された雑音ラベル検出フレームワークを用いて,雑音ラベルを用いた学習のためのノイズデータの検出と除去を行う。
具体的には,ネットワーク特徴量と1ホットラベルの線形関係をモデル化するためのペナル化回帰を設計する。
多数のカテゴリやトレーニングデータを含むデータセットに対して,フレームワークをスケーラブルにするために,トレーニングセット全体を小片に分割する分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-15T11:09:58Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。