論文の概要: Differences Between Hard and Noisy-labeled Samples: An Empirical Study
- arxiv url: http://arxiv.org/abs/2307.10718v1
- Date: Thu, 20 Jul 2023 09:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:50:27.647288
- Title: Differences Between Hard and Noisy-labeled Samples: An Empirical Study
- Title(参考訳): 硬質試料とノイズラベル試料の差異に関する実証的研究
- Authors: Mahsa Forouzesh and Patrick Thiran
- Abstract要約: ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
- 参考スコア(独自算出の注目度): 7.132368785057315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting noisy or incorrectly labeled samples from a labeled dataset with
hard/difficult samples is an important yet under-explored topic. Two general
and often independent lines of work exist, one focuses on addressing noisy
labels, and another deals with hard samples. However, when both types of data
are present, most existing methods treat them equally, which results in a
decline in the overall performance of the model. In this paper, we first design
various synthetic datasets with custom hardness and noisiness levels for
different samples. Our proposed systematic empirical study enables us to better
understand the similarities and more importantly the differences between
hard-to-learn samples and incorrectly-labeled samples. These controlled
experiments pave the way for the development of methods that distinguish
between hard and noisy samples. Through our study, we introduce a simple yet
effective metric that filters out noisy-labeled samples while keeping the hard
samples. We study various data partitioning methods in the presence of label
noise and observe that filtering out noisy samples from hard samples with this
proposed metric results in the best datasets as evidenced by the high test
accuracy achieved after models are trained on the filtered datasets. We
demonstrate this for both our created synthetic datasets and for datasets with
real-world label noise. Furthermore, our proposed data partitioning method
significantly outperforms other methods when employed within a semi-supervised
learning framework.
- Abstract(参考訳): ラベル付きデータセットからノイズや誤ったラベル付きサンプルをハード/ディフルトサンプルで抽出することは、重要だが未調査のトピックである。
2つの一般的な、しばしば独立した作業ラインが存在し、1つはノイズラベルへの対処に焦点を当て、もう1つはハードサンプルを扱う。
しかし、両方のデータが存在する場合、既存のほとんどのメソッドはそれらを等しく扱い、結果としてモデル全体の性能が低下する。
本稿では,まず,異なるサンプルに対して,カスタムハードネスとノイズレベルを有する各種合成データセットを設計する。
提案する系統的実証研究により,本研究の類似性がよりよく理解され,また,難解なサンプルと不正確なラベル付きサンプルとの相違がより重要となる。
これらの制御された実験は、硬度と雑音のサンプルを区別する手法の開発の道を開く。
そこで本研究では,硬い試料を保ちながら雑音に満ちた試料をフィルタする簡易かつ効果的な測定法を提案する。
本研究では,ラベルノイズが存在する場合の様々なデータ分割手法について検討し,提案手法を用いてハードサンプルからのノイズサンプルをフィルタリングし,フィルタ付きデータセット上でモデルをトレーニングした結果,高いテスト精度が得られたことを証明した。
生成した合成データセットと実世界のラベルノイズのあるデータセットの両方でこれを実証する。
さらに,提案手法は,半教師付き学習フレームワークで使用する場合,他の手法を大きく上回っている。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。
我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。
我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2021-12-02T13:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。