論文の概要: Robust Data Pruning under Label Noise via Maximizing Re-labeling
Accuracy
- arxiv url: http://arxiv.org/abs/2311.01002v1
- Date: Thu, 2 Nov 2023 05:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:38:48.825456
- Title: Robust Data Pruning under Label Noise via Maximizing Re-labeling
Accuracy
- Title(参考訳): リラベル精度の最大化によるラベル雑音下でのロバストデータプルーニング
- Authors: Dongmin Park, Seola Choi, Doyoung Kim, Hwanjun Song, Jae-Gil Lee
- Abstract要約: 我々は再ラベルでデータプルーニングの問題を定式化する。
そこで本研究では,すべてのトレーニング例の局所的信頼度を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
- 参考スコア(独自算出の注目度): 34.02350195269502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data pruning, which aims to downsize a large training set into a small
informative subset, is crucial for reducing the enormous computational costs of
modern deep learning. Though large-scale data collections invariably contain
annotation noise and numerous robust learning methods have been developed, data
pruning for the noise-robust learning scenario has received little attention.
With state-of-the-art Re-labeling methods that self-correct erroneous labels
while training, it is challenging to identify which subset induces the most
accurate re-labeling of erroneous labels in the entire training set. In this
paper, we formalize the problem of data pruning with re-labeling. We first show
that the likelihood of a training example being correctly re-labeled is
proportional to the prediction confidence of its neighborhood in the subset.
Therefore, we propose a novel data pruning algorithm, Prune4Rel, that finds a
subset maximizing the total neighborhood confidence of all training examples,
thereby maximizing the re-labeling accuracy and generalization performance.
Extensive experiments on four real and one synthetic noisy datasets show that
\algname{} outperforms the baselines with Re-labeling models by up to 9.1% as
well as those with a standard model by up to 21.6%.
- Abstract(参考訳): 大規模なトレーニングセットを小さな情報サブセットに縮小することを目的としたデータプルーニングは、現代のディープラーニングの膨大な計算コスト削減に不可欠である。
大規模なデータ収集にはアノテーションノイズや多数の頑健な学習方法が必ず含まれているが,ノイズロスト学習シナリオのためのデータプルーニングはほとんど注目されていない。
トレーニング中に誤ラベルを自己修正する最先端のリラベル手法を用いることで、トレーニングセット全体においてどのサブセットが誤ラベルを最も正確に再ラベルするかを特定することは困難である。
本稿では,再ラベルによるデータプルーニングの問題を定式化する。
まず、トレーニング例が正しく再ラベルされる可能性は、サブセット内のその近傍の予測信頼度に比例することを示す。
そこで本研究では,すべてのトレーニング例の総近傍信頼度を最大化し,再ラベル精度と一般化性能を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
4つの実データと1つの合成ノイズデータセットに関する広範囲な実験により、 \algname{} は、リラベルモデルでベースラインを9.1%、標準モデルで最大21.6%上回っている。
関連論文リスト
- Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。