論文の概要: Robustness to Label Noise Depends on the Shape of the Noise Distribution
in Feature Space
- arxiv url: http://arxiv.org/abs/2206.01106v1
- Date: Thu, 2 Jun 2022 15:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:24:42.192227
- Title: Robustness to Label Noise Depends on the Shape of the Noise Distribution
in Feature Space
- Title(参考訳): 特徴空間における騒音分布の形状に依存するラベル雑音に対するロバスト性
- Authors: Diane Oyen, Michal Kucer, Nick Hengartner, Har Simrat Singh
- Abstract要約: 騒音分布の規模と形状が後部確率に影響を及ぼすことを示す。
雑音分布が決定境界を目標とする場合、小さなノイズであっても、分類ロバスト性は低下しうることを示す。
- 参考スコア(独自算出の注目度): 6.748225062396441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning classifiers have been demonstrated, both empirically and
theoretically, to be robust to label noise under certain conditions -- notably
the typical assumption is that label noise is independent of the features given
the class label. We provide a theoretical framework that generalizes beyond
this typical assumption by modeling label noise as a distribution over feature
space. We show that both the scale and the shape of the noise distribution
influence the posterior likelihood; and the shape of the noise distribution has
a stronger impact on classification performance if the noise is concentrated in
feature space where the decision boundary can be moved. For the special case of
uniform label noise (independent of features and the class label), we show that
the Bayes optimal classifier for $c$ classes is robust to label noise until the
ratio of noisy samples goes above $\frac{c-1}{c}$ (e.g. 90% for 10 classes),
which we call the tipping point. However, for the special case of
class-dependent label noise (independent of features given the class label),
the tipping point can be as low as 50%. Most importantly, we show that when the
noise distribution targets decision boundaries (label noise is directly
dependent on feature space), classification robustness can drop off even at a
small scale of noise. Even when evaluating recent label-noise mitigation
methods we see reduced accuracy when label noise is dependent on features.
These findings explain why machine learning often handles label noise well if
the noise distribution is uniform in feature-space; yet it also points to the
difficulty of overcoming label noise when it is concentrated in a region of
feature space where a decision boundary can move.
- Abstract(参考訳): 機械学習の分類器は、経験的および理論的に、特定の条件下でノイズをラベルすることに対して堅牢であることが実証されている。
ラベルノイズを特徴空間上の分布としてモデル化することにより,この典型的な仮定を超えて一般化する理論的枠組みを提案する。
提案手法では,雑音分布の大きさと形状の両方が後続度に影響を与え,ノイズ分布の形状は,雑音が決定境界が移動可能な特徴空間に集中する場合,分類性能に強い影響を与えることを示した。
一様ラベルノイズ(特徴やクラスラベルに依存しない)の特別な場合について、ノイズサンプルの比率が$\frac{c-1}{c}$(例えば10クラスの90%)を超えるまで、$c$クラスのベイズ最適分類器はラベルノイズに対して頑健であることを示す。
しかし、クラス依存のラベルノイズ(クラスラベルが与えられた特徴に依存しない)の特別な場合、チップングポイントは50%以下である。
最も重要なことは、ノイズ分布が決定境界(ラベルノイズは特徴空間に直接依存する)をターゲットにしている場合、小さな雑音でも分類の堅牢性は低下する可能性があることである。
近年のラベルノイズ緩和手法の評価においても,特徴量に依存するラベルノイズの精度が低下している。
これらの結果は、ノイズ分布が特徴空間において均一である場合、機械学習がラベルノイズをうまく処理する理由を説明しているが、決定境界が移動可能な特徴空間の領域に集中する場合、ラベルノイズを克服することが困難であることを示している。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Robust Online Classification: From Estimation to Denoising [14.535583931446807]
一般仮説クラスを用いて,特徴のオンライン分類をラベルに分類する。
観測されたノイズラベルとノイズレス特徴を用いて予測を行う。
性能は、真のラベルと比較する場合、ミニマックスリスクによって測定される。
論文 参考訳(メタデータ) (2023-09-04T16:17:39Z) - Handling Realistic Label Noise in BERT Text Classification [1.0515439489916731]
実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2023-05-23T18:30:31Z) - Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
論文 参考訳(メタデータ) (2022-12-21T04:56:41Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - Learning with Feature-Dependent Label Noise: A Progressive Approach [19.425199841491246]
一般的なi.i.dよりもはるかに一般的である特徴依存ラベルノイズの新しいファミリーを提案する。
ラベルノイズ。
我々は、様々な(未知)ノイズパターンに対して、この戦略で訓練された分類器がベイズ分類器と一致するように収束することを示す理論的保証を提供する。
論文 参考訳(メタデータ) (2021-03-13T17:34:22Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels [86.5943044285146]
ラベルノイズ遷移行列$T$は、真のラベルがノイズのあるものへと反転する確率を反映する。
本稿では,閉集合と開集合の混在したラベル雑音下での学習に着目した。
本手法は,従来の最先端のラベル雑音学習法よりも頑健な性能を追求し,混合ラベル雑音をモデル化する。
論文 参考訳(メタデータ) (2020-12-02T02:42:45Z) - NoiseRank: Unsupervised Label Noise Reduction with Dependence Models [11.08987870095179]
マルコフランダム場(MRF)を用いた教師なしラベル雑音低減のためのノイズRankを提案する。
本研究では,データセットに誤ってラベル付けされたインスタンスの後方確率と,その推定確率に基づいてランク付けされたインスタンスを推定する依存性モデルを構築した。
NORankはFood101-N(20%ノイズ)の最先端分類を改善し、高雑音クローティング-1M(40%ノイズ)に有効である
論文 参考訳(メタデータ) (2020-03-15T01:10:25Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。