論文の概要: Label Noise Types and Their Effects on Deep Learning
- arxiv url: http://arxiv.org/abs/2003.10471v1
- Date: Mon, 23 Mar 2020 18:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:24:35.407558
- Title: Label Noise Types and Their Effects on Deep Learning
- Title(参考訳): ラベルノイズの種類と深層学習への影響
- Authors: G\"orkem Algan, \.Ilkay Ulusoy
- Abstract要約: 本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。
他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of deep learning is mostly due to the availability of big
datasets with clean annotations. However, gathering a cleanly annotated dataset
is not always feasible due to practical challenges. As a result, label noise is
a common problem in datasets, and numerous methods to train deep neural
networks in the presence of noisy labels are proposed in the literature. These
methods commonly use benchmark datasets with synthetic label noise on the
training set. However, there are multiple types of label noise, and each of
them has its own characteristic impact on learning. Since each work generates a
different kind of label noise, it is problematic to test and compare those
algorithms in the literature fairly. In this work, we provide a detailed
analysis of the effects of different kinds of label noise on learning.
Moreover, we propose a generic framework to generate feature-dependent label
noise, which we show to be the most challenging case for learning. Our proposed
method aims to emphasize similarities among data instances by sparsely
distributing them in the feature domain. By this approach, samples that are
more likely to be mislabeled are detected from their softmax probabilities, and
their labels are flipped to the corresponding class. The proposed method can be
applied to any clean dataset to synthesize feature-dependent noisy labels. For
the ease of other researchers to test their algorithms with noisy labels, we
share corrupted labels for the most commonly used benchmark datasets. Our code
and generated noisy synthetic labels are available online.
- Abstract(参考訳): 最近のディープラーニングの成功は主に、クリーンなアノテーションを備えた大きなデータセットが利用可能であることによるものだ。
しかし、実用的な課題のため、クリーンな注釈付きデータセットの収集は必ずしも不可能ではない。
その結果、データセットではラベルノイズが一般的な問題となり、ノイズラベルの存在下でディープニューラルネットワークをトレーニングする多くの方法が文献に提案されている。
これらの手法は、トレーニングセットに合成ラベルノイズを持つベンチマークデータセットを一般的に使用する。
しかしながら、ラベルノイズには複数の種類があり、それぞれが学習に独自の影響を与える。
それぞれの作業が異なる種類のラベルノイズを生成するため、これらのアルゴリズムを文献で公正にテストし比較することが問題となる。
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
さらに,特徴に依存しないラベルノイズを生成するための汎用フレームワークを提案する。
提案手法は,機能領域に分散することで,データインスタンス間の類似性を強調することを目的としている。
このアプローチでは、誤ってラベル付けされる可能性が高いサンプルをsoftmax確率から検出し、それらのラベルを対応するクラスに反転させる。
提案手法は,どのクリーンデータセットにも適用でき,特徴に依存しない雑音ラベルを合成できる。
他の研究者が騒がしいラベルでアルゴリズムをテストするのを容易にするために、最もよく使われるベンチマークデータセットのために、腐敗したラベルを共有します。
私たちのコードと生成された騒がしい合成ラベルはオンラインで利用可能です。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Generating the Ground Truth: Synthetic Data for Soft Label and Label Noise Research [0.0]
実世界のデータからノイズのないデータセットを作成するためのフレームワークであるSynLABELを紹介する。
ラベルノイズを精度よく定量化する能力と,既存の手法による改善を実証する。
論文 参考訳(メタデータ) (2023-09-08T13:31:06Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Rethinking the Value of Labels for Instance-Dependent Label Noise
Learning [43.481591776038144]
実世界のアプリケーションにおけるノイズの多いラベルは、しばしば真のラベルと機能の両方に依存します。
本研究では、ノイズ遷移行列を明示的にモデル化しない新しい深層生成モデルを用いて、インスタンス依存ラベルノイズに対処する。
提案アルゴリズムは,カジュアルな表現学習を活用し,データから高レベルのコンテンツとスタイルの潜伏要素を同時に識別する。
論文 参考訳(メタデータ) (2023-05-10T15:29:07Z) - Tripartite: Tackle Noisy Labels by a More Precise Partition [21.582850128741022]
トレーニングデータをより正確に3つのサブセット(ハード、ノイズ、クリーン)に分割するTripartiteソリューションを提案する。
ノイズラベルの害を最小限に抑えつつノイズラベルデータの価値を最大化するために、ハードデータに低ウェイト学習を適用し、与えられたラベルを使わずにノイズラベルデータに自己教師付き学習を行う。
論文 参考訳(メタデータ) (2022-02-19T11:15:02Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Noisy Labels Can Induce Good Representations [53.47668632785373]
アーキテクチャがノイズラベルによる学習に与える影響について検討する。
ノイズラベルを用いたトレーニングは,モデルが一般化に乏しい場合でも,有用な隠れ表現を誘導できることを示す。
この発見は、騒々しいラベルで訓練されたモデルを改善する簡単な方法につながります。
論文 参考訳(メタデータ) (2020-12-23T18:58:05Z) - EvidentialMix: Learning with Combined Open-set and Closed-set Noisy
Labels [30.268962418683955]
開集合ラベルと閉集合ラベルを組み合わせた雑音ラベル問題の新しい変種について検討する。
その結果,従来の最先端手法よりも優れた分類結果と特徴表現が得られた。
論文 参考訳(メタデータ) (2020-11-11T11:15:32Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。