論文の概要: Label noise detection under the Noise at Random model with ensemble
filters
- arxiv url: http://arxiv.org/abs/2112.01617v1
- Date: Thu, 2 Dec 2021 21:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:47:36.502805
- Title: Label noise detection under the Noise at Random model with ensemble
filters
- Title(参考訳): アンサンブルフィルタを用いたランダムモデルにおける雑音下のラベル雑音検出
- Authors: Kecia G. Moura, Ricardo B. C. Prud\^encio, George D. C. Cavalcanti
- Abstract要約: 本研究では、2つの異なる雑音モデルの下でのアンサンブルノイズ検出の性能について検討する。
データセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に及ぼす影響について検討する。
- 参考スコア(独自算出の注目度): 5.994719700262245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Label noise detection has been widely studied in Machine Learning because of
its importance in improving training data quality. Satisfactory noise detection
has been achieved by adopting ensembles of classifiers. In this approach, an
instance is assigned as mislabeled if a high proportion of members in the pool
misclassifies it. Previous authors have empirically evaluated this approach;
nevertheless, they mostly assumed that label noise is generated completely at
random in a dataset. This is a strong assumption since other types of label
noise are feasible in practice and can influence noise detection results. This
work investigates the performance of ensemble noise detection under two
different noise models: the Noisy at Random (NAR), in which the probability of
label noise depends on the instance class, in comparison to the Noisy
Completely at Random model, in which the probability of label noise is entirely
independent. In this setting, we investigate the effect of class distribution
on noise detection performance since it changes the total noise level observed
in a dataset under the NAR assumption. Further, an evaluation of the ensemble
vote threshold is conducted to contrast with the most common approaches in the
literature. In many performed experiments, choosing a noise generation model
over another can lead to different results when considering aspects such as
class imbalance and noise level ratio among different classes.
- Abstract(参考訳): ラベルノイズ検出は、トレーニングデータ品質向上の重要性から、機械学習で広く研究されている。
ノイズ検出は、分類器のアンサンブルを採用することで実現されている。
このアプローチでは、プール内のメンバの比率が高い場合に、インスタンスが誤ったラベルとして割り当てられる。
以前の著者はこのアプローチを経験的に評価したが、ラベルノイズはデータセット内で完全にランダムに生成されると仮定していた。
これは、他の種類のラベルノイズが実際に実現可能であり、ノイズ検出結果に影響を与える可能性があるため、強い仮定である。
本研究では、2つの異なるノイズモデルにおけるアンサンブルノイズ検出の性能について検討する: ランダムのノイズの確率がインスタンスクラスに依存する雑音(NAR) と、ラベルノイズの確率が完全に独立な雑音(Randomモデル)。
そこで本研究では,NAR仮定に基づくデータセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に与える影響について検討する。
また、文献における最も一般的なアプローチとは対照的に、アンサンブル投票しきい値の評価を行う。
多くの実験では、クラス不均衡やノイズレベル比といった側面を異なるクラス間で考えると、ノイズ生成モデルが他よりも異なる結果をもたらす可能性がある。
関連論文リスト
- Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Cross-Validation Is All You Need: A Statistical Approach To Label Noise
Estimation [1.0965065178451103]
ラベルノイズは機械学習データセットで一般的である。
ノイズの多いデータに基づいてトレーニングされたモデルは、精度と一般化性を著しく低下させる可能性があるため、ラベルノイズを特定して除去することが重要である。
ReCoVは分類タスクベンチマークにおいて,ラベルクリーニングの最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-24T14:50:20Z) - Handling Realistic Label Noise in BERT Text Classification [1.0515439489916731]
実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2023-05-23T18:30:31Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Analysing the Noise Model Error for Realistic Noisy Label Data [14.766574408868806]
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
論文 参考訳(メタデータ) (2021-01-24T17:45:15Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Confidence Scores Make Instance-dependent Label-noise Learning Possible [129.84497190791103]
ノイズのあるラベルで学習する際、そのラベルはノイズモデルと呼ばれる遷移分布に従ってランダムに他のクラスに移動することができる。
我々は、各インスタンスラベル対に信頼スコアを付与する、信頼スコア付きインスタンス依存ノイズ(CSIDN)を導入する。
信頼性スコアの助けを借りて、各インスタンスの遷移分布を推定できる。
論文 参考訳(メタデータ) (2020-01-11T16:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。