論文の概要: Combating Noisy-Labeled and Imbalanced Data by Two Stage Bi-Dimensional
Sample Selection
- arxiv url: http://arxiv.org/abs/2208.09833v1
- Date: Sun, 21 Aug 2022 07:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:46:12.694895
- Title: Combating Noisy-Labeled and Imbalanced Data by Two Stage Bi-Dimensional
Sample Selection
- Title(参考訳): 2段階の2次元サンプル選択によるノイズラベルと不均衡データの圧縮
- Authors: Yiliang Zhang, Yang Lu, Bo Han, Yiu-ming Cheung, Hanzi Wang
- Abstract要約: 本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には,2段階の2次元試料選択 (TBSS) と呼ばれる頑健な試料選択手法を提案する。
- 参考スコア(独自算出の注目度): 59.500335483408264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust learning on noisy-labeled data has been an important task in real
applications, because label noise directly leads to the poor generalization of
deep learning models. Existing label-noise learning methods usually assume that
the ground-truth classes of the training data are balanced. However, the
real-world data is often imbalanced, leading to the inconsistency between
observed and intrinsic class distribution due to label noises. Distribution
inconsistency makes the problem of label-noise learning more challenging
because it is hard to distinguish clean samples from noisy samples on the
intrinsic tail classes. In this paper, we propose a learning framework for
label-noise learning with intrinsically long-tailed data. Specifically, we
propose a robust sample selection method called two-stage bi-dimensional sample
selection (TBSS) to better separate clean samples from noisy samples,
especially for the tail classes. TBSS consists of two new separation metrics to
jointly separate samples in each class. Extensive experiments on multiple
noisy-labeled datasets with intrinsically long-tailed class distribution
demonstrate the effectiveness of our method.
- Abstract(参考訳): ラベルノイズが直接深層学習モデルの一般化を損なうため,ノイズラベル付きデータのロバスト学習は実アプリケーションにおいて重要な課題となっている。
既存のラベルノイズ学習法では、トレーニングデータの基幹クラスがバランスしていると仮定することが多い。
しかし、実世界のデータはしばしば不均衡であり、ラベルノイズによる観測と固有のクラス分布の不整合をもたらす。
分布の不整合は,固有テールクラスにおいてクリーンなサンプルとノイズの多いサンプルを区別することが困難であるため,ラベルノイズ学習の問題をより困難にする。
本稿では,本質的ロングテールデータを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には、2段階の2次元サンプル選択(TBSS)と呼ばれる頑健なサンプル選択手法を提案する。
TBSSは2つの新しい分離指標で構成され、各クラスで共同でサンプルを分離する。
本手法の有効性を実証するため,複数の雑音ラベル付きデータセットに対する拡張実験を行った。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Centrality and Consistency: Two-Stage Clean Samples Identification for
Learning with Instance-Dependent Noisy Labels [87.48541631675889]
本稿では,2段階のクリーンサンプル識別手法を提案する。
まず,クリーンサンプルの早期同定にクラスレベルの特徴クラスタリング手法を用いる。
次に, 基底真理クラス境界に近い残余のクリーンサンプルについて, 一貫性に基づく新しい分類法を提案する。
論文 参考訳(メタデータ) (2022-07-29T04:54:57Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。