論文の概要: Label-Noise Learning with Intrinsically Long-Tailed Data
- arxiv url: http://arxiv.org/abs/2208.09833v3
- Date: Mon, 14 Aug 2023 05:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 23:15:39.294637
- Title: Label-Noise Learning with Intrinsically Long-Tailed Data
- Title(参考訳): 固有長尾データを用いたラベルノイズ学習
- Authors: Yang Lu, Yiliang Zhang, Bo Han, Yiu-ming Cheung, Hanzi Wang
- Abstract要約: 本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
- 参考スコア(独自算出の注目度): 65.41318436799993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label noise is one of the key factors that lead to the poor generalization of
deep learning models. Existing label-noise learning methods usually assume that
the ground-truth classes of the training data are balanced. However, the
real-world data is often imbalanced, leading to the inconsistency between
observed and intrinsic class distribution with label noises. In this case, it
is hard to distinguish clean samples from noisy samples on the intrinsic tail
classes with the unknown intrinsic class distribution. In this paper, we
propose a learning framework for label-noise learning with intrinsically
long-tailed data. Specifically, we propose two-stage bi-dimensional sample
selection (TABASCO) to better separate clean samples from noisy samples,
especially for the tail classes. TABASCO consists of two new separation metrics
that complement each other to compensate for the limitation of using a single
metric in sample separation. Extensive experiments on benchmarks demonstrate
the effectiveness of our method. Our code is available at
https://github.com/Wakings/TABASCO.
- Abstract(参考訳): ラベルノイズは、ディープラーニングモデルの一般化の欠如につながる重要な要因の1つである。
既存のラベルノイズ学習法では、トレーニングデータの基幹クラスがバランスしていると仮定することが多い。
しかし、実世界のデータはしばしば不均衡であり、観測されたクラスと固有のクラス分布とラベルノイズとの矛盾をもたらす。
この場合、未知の固有クラス分布を持つ固有テールクラスのノイズの多いサンプルとクリーンサンプルを区別することは困難である。
本稿では,本質的ロングテールデータを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には,2段階の2次元試料選択法(TABASCO)を提案する。
TABASCOは、サンプル分離において単一の測定値を使用することの制限を補うために、互いに補完する2つの新しい分離指標から構成される。
ベンチマーク実験により,本手法の有効性が示された。
私たちのコードはhttps://github.com/Wakings/TABASCOで利用可能です。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Centrality and Consistency: Two-Stage Clean Samples Identification for
Learning with Instance-Dependent Noisy Labels [87.48541631675889]
本稿では,2段階のクリーンサンプル識別手法を提案する。
まず,クリーンサンプルの早期同定にクラスレベルの特徴クラスタリング手法を用いる。
次に, 基底真理クラス境界に近い残余のクリーンサンプルについて, 一貫性に基づく新しい分類法を提案する。
論文 参考訳(メタデータ) (2022-07-29T04:54:57Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。