論文の概要: Cross-Validation Is All You Need: A Statistical Approach To Label Noise
Estimation
- arxiv url: http://arxiv.org/abs/2306.13990v1
- Date: Sat, 24 Jun 2023 14:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:40:35.587267
- Title: Cross-Validation Is All You Need: A Statistical Approach To Label Noise
Estimation
- Title(参考訳): クロスバリデーションは必要なすべてである - ラベルノイズ推定に対する統計的アプローチ
- Authors: Jianan Chen and Anne Martel
- Abstract要約: ラベルノイズは機械学習データセットで一般的である。
ノイズの多いデータに基づいてトレーニングされたモデルは、精度と一般化性を著しく低下させる可能性があるため、ラベルノイズを特定して除去することが重要である。
ReCoVは分類タスクベンチマークにおいて,ラベルクリーニングの最先端アルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.0965065178451103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Label noise is prevalent in machine learning datasets. It is crucial to
identify and remove label noise because models trained on noisy data can have
substantially reduced accuracy and generalizability. Most existing label noise
detection approaches are designed for classification tasks, and data cleaning
for outcome prediction analysis is relatively unexplored. Inspired by the
fluctuations in performance across different folds in cross-validation, we
propose Repeated Cross-Validations for label noise estimation (ReCoV) to
address this gap. ReCoV constructs a noise histogram that ranks the noise level
of samples based on a large number of cross-validations by recording sample IDs
in each worst-performing fold. We further propose three approaches for
identifying noisy samples based on noise histograms to address increasingly
complex noise distributions. We show that ReCoV outperforms state-of-the-art
algorithms for label cleaning in a classification task benchmark. More
importantly, we show that removing ReCoV-identified noisy samples in two
medical imaging outcome prediction datasets significantly improves model
performance on test sets. As a statistical approach that does not rely on
hyperparameters, noise distributions, or model structures, ReCoV is compatible
with any machine learning analysis.
- Abstract(参考訳): ラベルノイズは機械学習データセットで一般的です。
ノイズデータに基づいてトレーニングされたモデルが精度と一般化性を大幅に低下させる可能性があるため、ラベルノイズの識別と除去が不可欠である。
既存のラベルノイズ検出手法のほとんどは分類タスク用に設計されており、結果予測分析のためのデータクリーニングは比較的未探索である。
クロスバリデーションにおける異なる折り曲げ性能の変動に着想を得て,ラベルノイズ推定(ReCoV)のための繰り返しクロスバリデーションを提案する。
ReCoVは、サンプルIDを最低性能の折り目ごとに記録することにより、多数のクロスバリデーションに基づいてサンプルのノイズレベルをランク付けするノイズヒストグラムを構築する。
さらに,ノイズ分布の複雑化に対応するため,雑音ヒストグラムに基づく雑音サンプル同定手法を3つ提案する。
ReCoVは分類タスクベンチマークにおいてラベルクリーニングの最先端アルゴリズムよりも優れていることを示す。
さらに,2つの医用画像結果予測データセットにおけるReCoV識別ノイズサンプルの除去は,テストセットのモデル性能を著しく向上させることを示した。
ハイパーパラメータやノイズ分布、モデル構造に依存しない統計的アプローチとして、ReCoVは任意の機械学習分析と互換性がある。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Is your noise correction noisy? PLS: Robustness to label noise with two
stage detection [16.65296285599679]
本報告では, ノイズが検出された場合に, ノイズの補正精度を向上させることを提案する。
多くの最先端コントリビューションでは、修正された擬似ラベルを推測する前にノイズサンプルを検出する2段階のアプローチが採用されている。
ノイズサンプルの擬似ラベルの正しさと強く相関する単純な測度である擬似ロスを提案する。
論文 参考訳(メタデータ) (2022-10-10T11:32:28Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - An Ensemble Noise-Robust K-fold Cross-Validation Selection Method for
Noisy Labels [0.9699640804685629]
大規模なデータセットには、ディープニューラルネットワーク(DNN)によって記憶されるような、ラベルのずれたサンプルが含まれている傾向があります。
本稿では, ノイズデータからクリーンなサンプルを効果的に選択するために, アンサンブルノイズ・ロバスト K-fold Cross-Validation Selection (E-NKCVS) を提案する。
我々は,ラベルが手動で異なる雑音比で破損した様々な画像・テキスト分類タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T02:14:52Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。