論文の概要: Identifying Mislabeled Data using the Area Under the Margin Ranking
- arxiv url: http://arxiv.org/abs/2001.10528v4
- Date: Wed, 23 Dec 2020 14:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:06:42.906909
- Title: Identifying Mislabeled Data using the Area Under the Margin Ranking
- Title(参考訳): マージンランキング下の領域を用いた誤記データの同定
- Authors: Geoff Pleiss, Tianyi Zhang, Ethan R. Elenberg, Kilian Q. Weinberger
- Abstract要約: 本稿では,ニューラルネットワークのトレーニングにおいて,そのようなサンプルを同定し,その影響を緩和する新しい手法を提案する。
単純なプロシージャ - 意図的にラベル付けされたしきい値サンプルが混在している余分なクラスを追加する - は、ラベル付けされたデータを分離するAUM上限を学習する。
WebVision50分類タスクでは、トレーニングデータの17%が削除され、テストエラーが1.6%(絶対)改善された。
- 参考スコア(独自算出の注目度): 35.57623165270438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Not all data in a typical training set help with generalization; some samples
can be overly ambiguous or outrightly mislabeled. This paper introduces a new
method to identify such samples and mitigate their impact when training neural
networks. At the heart of our algorithm is the Area Under the Margin (AUM)
statistic, which exploits differences in the training dynamics of clean and
mislabeled samples. A simple procedure - adding an extra class populated with
purposefully mislabeled threshold samples - learns a AUM upper bound that
isolates mislabeled data. This approach consistently improves upon prior work
on synthetic and real-world datasets. On the WebVision50 classification task
our method removes 17% of training data, yielding a 1.6% (absolute) improvement
in test error. On CIFAR100 removing 13% of the data leads to a 1.2% drop in
error.
- Abstract(参考訳): 一般的なトレーニングセットにあるすべてのデータが一般化に役立つわけではない。
本稿では,そのようなサンプルを識別し,ニューラルネットワークのトレーニングにおけるその影響を緩和する新しい手法を提案する。
私たちのアルゴリズムの核心はAUM(Area Under the Margin)統計であり、クリーンなサンプルと誤ラベルされたサンプルのトレーニングダイナミクスの違いを利用しています。
単純なプロシージャ - 意図的にラベル付けされたしきい値サンプルが混在している余分なクラスを追加する - は、ラベル付けされたデータを分離するAUM上限を学ぶ。
このアプローチは、合成および実世界のデータセットの事前処理を一貫して改善する。
WebVision50分類タスクでは、トレーニングデータの17%が削除され、テストエラーが1.6%(絶対)改善された。
cifar100ではデータの13%を削除するとエラーが1.2%減少する。
関連論文リスト
- MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Impact of Strategic Sampling and Supervision Policies on Semi-supervised Learning [23.4909421082857]
半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。
半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。
これらのラベル付きサンプルは、トレーニングプロセス全体を通して、未ラベルのデータとともに使用される。
論文 参考訳(メタデータ) (2022-11-27T18:29:54Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Unbiased Teacher for Semi-Supervised Object Detection [50.0087227400306]
SS-OD(Semi-Supervised Object Detection)を再検討し,SS-ODにおける擬似ラベルバイアス問題を特定する。
学生と徐々に進歩する教師を相互に利益ある方法で共同で訓練するシンプルで効果的なアプローチであるUnbiased Teacherを紹介します。
論文 参考訳(メタデータ) (2021-02-18T17:02:57Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。