論文の概要: Label noise detection under the Noise at Random model with ensemble
filters
- arxiv url: http://arxiv.org/abs/2112.01617v1
- Date: Thu, 2 Dec 2021 21:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:47:36.502805
- Title: Label noise detection under the Noise at Random model with ensemble
filters
- Title(参考訳): アンサンブルフィルタを用いたランダムモデルにおける雑音下のラベル雑音検出
- Authors: Kecia G. Moura, Ricardo B. C. Prud\^encio, George D. C. Cavalcanti
- Abstract要約: 本研究では、2つの異なる雑音モデルの下でのアンサンブルノイズ検出の性能について検討する。
データセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に及ぼす影響について検討する。
- 参考スコア(独自算出の注目度): 5.994719700262245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Label noise detection has been widely studied in Machine Learning because of
its importance in improving training data quality. Satisfactory noise detection
has been achieved by adopting ensembles of classifiers. In this approach, an
instance is assigned as mislabeled if a high proportion of members in the pool
misclassifies it. Previous authors have empirically evaluated this approach;
nevertheless, they mostly assumed that label noise is generated completely at
random in a dataset. This is a strong assumption since other types of label
noise are feasible in practice and can influence noise detection results. This
work investigates the performance of ensemble noise detection under two
different noise models: the Noisy at Random (NAR), in which the probability of
label noise depends on the instance class, in comparison to the Noisy
Completely at Random model, in which the probability of label noise is entirely
independent. In this setting, we investigate the effect of class distribution
on noise detection performance since it changes the total noise level observed
in a dataset under the NAR assumption. Further, an evaluation of the ensemble
vote threshold is conducted to contrast with the most common approaches in the
literature. In many performed experiments, choosing a noise generation model
over another can lead to different results when considering aspects such as
class imbalance and noise level ratio among different classes.
- Abstract(参考訳): ラベルノイズ検出は、トレーニングデータ品質向上の重要性から、機械学習で広く研究されている。
ノイズ検出は、分類器のアンサンブルを採用することで実現されている。
このアプローチでは、プール内のメンバの比率が高い場合に、インスタンスが誤ったラベルとして割り当てられる。
以前の著者はこのアプローチを経験的に評価したが、ラベルノイズはデータセット内で完全にランダムに生成されると仮定していた。
これは、他の種類のラベルノイズが実際に実現可能であり、ノイズ検出結果に影響を与える可能性があるため、強い仮定である。
本研究では、2つの異なるノイズモデルにおけるアンサンブルノイズ検出の性能について検討する: ランダムのノイズの確率がインスタンスクラスに依存する雑音(NAR) と、ラベルノイズの確率が完全に独立な雑音(Randomモデル)。
そこで本研究では,NAR仮定に基づくデータセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に与える影響について検討する。
また、文献における最も一般的なアプローチとは対照的に、アンサンブル投票しきい値の評価を行う。
多くの実験では、クラス不均衡やノイズレベル比といった側面を異なるクラス間で考えると、ノイズ生成モデルが他よりも異なる結果をもたらす可能性がある。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Handling Realistic Label Noise in BERT Text Classification [1.0515439489916731]
実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2023-05-23T18:30:31Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Analysing the Noise Model Error for Realistic Noisy Label Data [14.766574408868806]
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
論文 参考訳(メタデータ) (2021-01-24T17:45:15Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Confidence Scores Make Instance-dependent Label-noise Learning Possible [129.84497190791103]
ノイズのあるラベルで学習する際、そのラベルはノイズモデルと呼ばれる遷移分布に従ってランダムに他のクラスに移動することができる。
我々は、各インスタンスラベル対に信頼スコアを付与する、信頼スコア付きインスタンス依存ノイズ(CSIDN)を導入する。
信頼性スコアの助けを借りて、各インスタンスの遷移分布を推定できる。
論文 参考訳(メタデータ) (2020-01-11T16:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。