論文の概要: Differences Between Hard and Noisy-labeled Samples: An Empirical Study
- arxiv url: http://arxiv.org/abs/2307.10718v1
- Date: Thu, 20 Jul 2023 09:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:50:27.647288
- Title: Differences Between Hard and Noisy-labeled Samples: An Empirical Study
- Title(参考訳): 硬質試料とノイズラベル試料の差異に関する実証的研究
- Authors: Mahsa Forouzesh and Patrick Thiran
- Abstract要約: ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
- 参考スコア(独自算出の注目度): 7.132368785057315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting noisy or incorrectly labeled samples from a labeled dataset with
hard/difficult samples is an important yet under-explored topic. Two general
and often independent lines of work exist, one focuses on addressing noisy
labels, and another deals with hard samples. However, when both types of data
are present, most existing methods treat them equally, which results in a
decline in the overall performance of the model. In this paper, we first design
various synthetic datasets with custom hardness and noisiness levels for
different samples. Our proposed systematic empirical study enables us to better
understand the similarities and more importantly the differences between
hard-to-learn samples and incorrectly-labeled samples. These controlled
experiments pave the way for the development of methods that distinguish
between hard and noisy samples. Through our study, we introduce a simple yet
effective metric that filters out noisy-labeled samples while keeping the hard
samples. We study various data partitioning methods in the presence of label
noise and observe that filtering out noisy samples from hard samples with this
proposed metric results in the best datasets as evidenced by the high test
accuracy achieved after models are trained on the filtered datasets. We
demonstrate this for both our created synthetic datasets and for datasets with
real-world label noise. Furthermore, our proposed data partitioning method
significantly outperforms other methods when employed within a semi-supervised
learning framework.
- Abstract(参考訳): ラベル付きデータセットからノイズや誤ったラベル付きサンプルをハード/ディフルトサンプルで抽出することは、重要だが未調査のトピックである。
2つの一般的な、しばしば独立した作業ラインが存在し、1つはノイズラベルへの対処に焦点を当て、もう1つはハードサンプルを扱う。
しかし、両方のデータが存在する場合、既存のほとんどのメソッドはそれらを等しく扱い、結果としてモデル全体の性能が低下する。
本稿では,まず,異なるサンプルに対して,カスタムハードネスとノイズレベルを有する各種合成データセットを設計する。
提案する系統的実証研究により,本研究の類似性がよりよく理解され,また,難解なサンプルと不正確なラベル付きサンプルとの相違がより重要となる。
これらの制御された実験は、硬度と雑音のサンプルを区別する手法の開発の道を開く。
そこで本研究では,硬い試料を保ちながら雑音に満ちた試料をフィルタする簡易かつ効果的な測定法を提案する。
本研究では,ラベルノイズが存在する場合の様々なデータ分割手法について検討し,提案手法を用いてハードサンプルからのノイズサンプルをフィルタリングし,フィルタ付きデータセット上でモデルをトレーニングした結果,高いテスト精度が得られたことを証明した。
生成した合成データセットと実世界のラベルノイズのあるデータセットの両方でこれを実証する。
さらに,提案手法は,半教師付き学習フレームワークで使用する場合,他の手法を大きく上回っている。
関連論文リスト
- Learning with Instance-Dependent Noisy Labels by Anchor Hallucination and Hard Sample Label Correction [12.317154103998433]
従来のNoisy-Label Learning (NLL) 手法は、トレーニングサンプルの損失分布に基づいて、トレーニングデータをクリーンでノイズの多いセットに分類する。
提案手法は, 清潔さと難易度と難易度を明確に区別する。
修正されたハードサンプルと簡単なサンプルは、その後の半教師付きトレーニングでラベル付きデータとして使用される。
論文 参考訳(メタデータ) (2024-07-10T03:00:14Z) - Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels [13.314778587751588]
ノイズラベルは、特にクラウドソーシングやWeb検索から派生した大規模データセットにおいて、現実世界のデータセットにおいてユビキタスである。
トレーニング中にノイズの多いラベルを過度に適合させる傾向にあるため、ノイズの多いデータセットでディープニューラルネットワークをトレーニングすることは難しい。
ノイズラベルの影響を軽減するために,新しい合成サンプルを用いてモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-22T04:49:39Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - PASS: Peer-Agreement based Sample Selection for training with Noisy Labels [16.283722126438125]
ノイズラベルサンプルの頻度は、深層学習において重要な課題となり、過剰適合効果を誘発する。
現在の方法論は、しばしばノイズとクリーンなラベルのサンプルを分離するために、小さな損失仮説や特徴に基づく選択に依存している。
本稿では,PASS (Peer-Agreement based Sample Selection) と呼ばれる新しいノイズラベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T00:35:33Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。
我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。
我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2021-12-02T13:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。