論文の概要: Harmless label noise and informative soft-labels in supervised
classification
- arxiv url: http://arxiv.org/abs/2104.02872v1
- Date: Wed, 7 Apr 2021 02:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 23:57:52.860759
- Title: Harmless label noise and informative soft-labels in supervised
classification
- Title(参考訳): 教師付き分類におけるハームレスラベルノイズと情報ソフトラベル
- Authors: Daniel Ahfock and Geoffrey J. McLachlan
- Abstract要約: トレーニング例の手動ラベリングは、教師付き学習の一般的なプラクティスです。
ラベル処理が非自明な難易度である場合、供給されたラベルは接地ラベルと等しくなく、ラベルノイズをトレーニングデータセットに導入する。
特に、分類困難がラベルエラーの唯一の原因である場合、複数のノイズラベルセットは、分類規則の推定により多くの情報を提供することができる。
- 参考スコア(独自算出の注目度): 1.6752182911522517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manual labelling of training examples is common practice in supervised
learning. When the labelling task is of non-trivial difficulty, the supplied
labels may not be equal to the ground-truth labels, and label noise is
introduced into the training dataset. If the manual annotation is carried out
by multiple experts, the same training example can be given different class
assignments by different experts, which is indicative of label noise. In the
framework of model-based classification, a simple, but key observation is that
when the manual labels are sampled using the posterior probabilities of class
membership, the noisy labels are as valuable as the ground-truth labels in
terms of statistical information. A relaxation of this process is a random
effects model for imperfect labelling by a group that uses approximate
posterior probabilities of class membership. The relative efficiency of
logistic regression using the noisy labels compared to logistic regression
using the ground-truth labels can then be derived. The main finding is that
logistic regression can be robust to label noise when label noise and
classification difficulty are positively correlated. In particular, when
classification difficulty is the only source of label errors, multiple sets of
noisy labels can supply more information for the estimation of a classification
rule compared to the single set of ground-truth labels.
- Abstract(参考訳): トレーニング例のマニュアルラベリングは教師あり学習において一般的な実践である。
ラベル付けタスクが非自明な難易度である場合、供給されたラベルは、グランドトラストラベルと等しくなく、トレーニングデータセットにラベルノイズを導入する。
手動のアノテーションが複数の専門家によって実行される場合、同じトレーニング例は異なる専門家によって異なるクラス割り当てを与えられる。
モデルに基づく分類の枠組みでは、単純だが鍵となる観察は、手動ラベルがクラスメンバーシップの後方確率を用いてサンプリングされた場合、ノイズラベルは統計的情報の観点からは接地ラベルと同じくらい価値があるということである。
この過程の緩和は、クラスメンバーシップの近似的な後続確率を用いた群による不完全ラベリングに対するランダム効果モデルである。
雑音ラベルを用いたロジスティック回帰の相対効率は、基底トラスラベルを用いたロジスティック回帰と比較して導出できる。
主な発見は、ラベルノイズと分類難易度が正の相関関係にある場合、ロジスティック回帰はラベルノイズに頑健であるということである。
特に、分類困難がラベルエラーの唯一の発生源である場合、ノイズラベルの複数セットは、単独の接地ラベルよりも分類規則の推定のためにより多くの情報を提供することができる。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Multi-Label Noise Transition Matrix Estimation with Label Correlations:
Theory and Algorithm [73.94839250910977]
ノイズの多いマルチラベル学習は、大規模な正確なラベルの収集によって生じる課題により、注目を集めている。
遷移行列の導入は、マルチラベルノイズをモデル化し、統計的に一貫したアルゴリズムの開発に役立つ。
そこで本稿では, アンカーポイントを必要とせずに, ラベル相関を利用した新しい推定器を提案する。
論文 参考訳(メタデータ) (2023-09-22T08:35:38Z) - Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Label Confusion Learning to Enhance Text Classification Models [3.0251266104313643]
ラベル混乱モデル(lcm)はラベル間の意味的重複を捉えるためにラベル混乱を学習する。
lcmは、元のホットラベルベクトルを置き換えるより優れたラベル分布を生成することができる。
5つのテキスト分類ベンチマークデータセットの実験により、広く使われているディープラーニング分類モデルに対するLCMの有効性が明らかにされた。
論文 参考訳(メタデータ) (2020-12-09T11:34:35Z) - Error-Bounded Correction of Noisy Labels [17.510654621245656]
ノイズのある分類器の予測は、トレーニングデータのラベルがクリーンかどうかを示す良い指標であることを示す。
理論的結果に基づいて,雑音分類器の予測に基づいてラベルを補正する新しいアルゴリズムを提案する。
ラベル補正アルゴリズムをディープニューラルネットワークのトレーニングや,複数の公開データセット上で優れたテスト性能を実現するトレーニングモデルに組み込む。
論文 参考訳(メタデータ) (2020-11-19T19:23:23Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z) - Label Noise Types and Their Effects on Deep Learning [0.0]
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。
他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
論文 参考訳(メタデータ) (2020-03-23T18:03:39Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。