論文の概要: Pervasive Label Errors in Test Sets Destabilize Machine Learning
Benchmarks
- arxiv url: http://arxiv.org/abs/2103.14749v1
- Date: Fri, 26 Mar 2021 21:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:29:55.490374
- Title: Pervasive Label Errors in Test Sets Destabilize Machine Learning
Benchmarks
- Title(参考訳): 機械学習ベンチマークを不安定にするテストセットにおける広範囲なラベルエラー
- Authors: Curtis G. Northcutt, Anish Athalye, Jonas Mueller
- Abstract要約: 我々は、最もよく使われるコンピュータビジョン、自然言語、音声データセットの10のテストセットでラベルエラーを識別する。
例えば、2916のラベルエラーは、ImageNet検証セットの6%を占めています。
- 参考スコア(独自算出の注目度): 12.992191397900806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify label errors in the test sets of 10 of the most commonly-used
computer vision, natural language, and audio datasets, and subsequently study
the potential for these label errors to affect benchmark results. Errors in
test sets are numerous and widespread: we estimate an average of 3.4% errors
across the 10 datasets, where for example 2916 label errors comprise 6% of the
ImageNet validation set. Putative label errors are identified using confident
learning algorithms and then human-validated via crowdsourcing (54% of the
algorithmically-flagged candidates are indeed erroneously labeled).
Traditionally, machine learning practitioners choose which model to deploy
based on test accuracy - our findings advise caution here, proposing that
judging models over correctly labeled test sets may be more useful, especially
for noisy real-world datasets. Surprisingly, we find that lower capacity models
may be practically more useful than higher capacity models in real-world
datasets with high proportions of erroneously labeled data. For example, on
ImageNet with corrected labels: ResNet-18 outperforms ResNet50 if the
prevalence of originally mislabeled test examples increases by just 6%. On
CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of
originally mislabeled test examples increases by just 5%.
- Abstract(参考訳): 我々は、最もよく使われるコンピュータビジョン、自然言語、音声データセットの10種類のテストセットにおけるラベルエラーを特定し、その後、これらのラベルエラーがベンチマーク結果に影響を与える可能性を調べる。
例えば、2916のラベルエラーがImageNet検証セットの6%を占める場合、10データセットの平均3.4%のエラーを見積もる。
仮定された学習アルゴリズムを使ってラベルの誤りを識別し、その後クラウドソーシングによって人間に検証する(アルゴリズムでフラッグした候補の54%が誤ってラベル付けされる)。
従来の機械学習の実践者は、テストの正確性に基づいて、どのモデルをデプロイするかを選択していました。
驚くべきことに、低容量モデルは、誤ったラベル付きデータの比率が高い現実世界のデータセットにおいて、高容量モデルよりも実質的に有用である可能性がある。
例えば、ImageNetのラベルが修正された: ResNet-18は、もともとラベルが間違っていたテスト例の頻度が6%向上すれば、ResNet50よりもパフォーマンスが向上する。
ラベルが修正されたCIFAR-10では、VGG-11がVGG-19を上回っている。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - AQuA: A Benchmarking Tool for Label Quality Assessment [16.83510474053401]
近年の研究では、機械学習モデルのトレーニングと評価に広く使用されているデータセットに、広範なラベル付けエラーがあることがわかった。
本稿では,ラベルノイズの存在下で機械学習を可能にする手法を厳格に評価するためのベンチマーク環境AQuAを提案する。
論文 参考訳(メタデータ) (2023-06-15T19:42:11Z) - Identifying Label Errors in Object Detection Datasets by Loss Inspection [4.442111891959355]
本稿では,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークを紹介する。
そこで本研究では,軌道上でランダムに導入した4種類のラベルエラーと,良好なラベル付きオブジェクト検出データセットの試験セットをシミュレートする。
論文 参考訳(メタデータ) (2023-03-13T10:54:52Z) - CTRL: Clustering Training Losses for Label Error Detection [4.49681473359251]
教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。
本稿では,ラベル誤り検出のための新しいフレームワークClustering TRaining Lossesを提案する。
モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。
論文 参考訳(メタデータ) (2022-08-17T18:09:19Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Big Self-Supervised Models are Strong Semi-Supervised Learners [116.00752519907725]
ImageNet上での半教師あり学習に驚くほど効果的であることを示す。
我々のアプローチの重要な要素は、事前訓練と微調整において大きな(深度と広度)ネットワークを使用することである。
ラベルが少なくなればなるほど、より大きなネットワークから、このアプローチ(ラベル付きデータのタスクに依存しない使用)が恩恵を受けることが分かっています。
論文 参考訳(メタデータ) (2020-06-17T17:48:22Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。