論文の概要: Improving Label Error Detection and Elimination with Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2405.09602v1
- Date: Wed, 15 May 2024 15:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 16:09:33.683601
- Title: Improving Label Error Detection and Elimination with Uncertainty Quantification
- Title(参考訳): 不確実性定量化によるラベル誤り検出と除去の改善
- Authors: Johannes Jakubik, Michael Vössing, Manil Maskey, Christopher Wölfle, Gerhard Satzger,
- Abstract要約: 我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
- 参考スコア(独自算出の注目度): 5.184615738004059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying and handling label errors can significantly enhance the accuracy of supervised machine learning models. Recent approaches for identifying label errors demonstrate that a low self-confidence of models with respect to a certain label represents a good indicator of an erroneous label. However, latest work has built on softmax probabilities to measure self-confidence. In this paper, we argue that -- as softmax probabilities do not reflect a model's predictive uncertainty accurately -- label error detection requires more sophisticated measures of model uncertainty. Therefore, we develop a range of novel, model-agnostic algorithms for Uncertainty Quantification-Based Label Error Detection (UQ-LED), which combine the techniques of confident learning (CL), Monte Carlo Dropout (MCD), model uncertainty measures (e.g., entropy), and ensemble learning to enhance label error detection. We comprehensively evaluate our algorithms on four image classification benchmark datasets in two stages. In the first stage, we demonstrate that our UQ-LED algorithms outperform state-of-the-art confident learning in identifying label errors. In the second stage, we show that removing all identified errors from the training data based on our approach results in higher accuracies than training on all available labeled data. Importantly, besides our contributions to the detection of label errors, we particularly propose a novel approach to generate realistic, class-dependent label errors synthetically. Overall, our study demonstrates that selectively cleaning datasets with UQ-LED algorithms leads to more accurate classifications than using larger, noisier datasets.
- Abstract(参考訳): ラベルエラーの特定と処理は、教師付き機械学習モデルの精度を大幅に向上させる。
ラベルの誤りを特定するための最近のアプローチは、あるラベルに対するモデルの自己自信が低いことが、誤ラベルのよい指標であることを示している。
しかし、最新の研究は、自己自信を測定するソフトマックス確率に基づいている。
本稿では,ソフトマックス確率がモデルの予測不確かさを正確に反映しないため,ラベル誤り検出にはモデル不確かさのより高度な測定が必要であることを論じる。
そこで我々は,信頼度学習(CL),モンテカルロ・ドロップアウト(MCD),モデル不確実性測定(e.,エントロピー),アンサンブル学習(enmble learning)を組み合わせ,ラベル誤り検出の精度を高めた,不確実性量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル非依存アルゴリズムを開発した。
我々は4つの画像分類ベンチマークデータセットを2段階にまとめて評価した。
最初の段階では、我々のUQ-LEDアルゴリズムは、ラベルエラーの特定において、最先端の自信ある学習よりも優れていることを実証する。
第2段階では,提案手法に基づくトレーニングデータから識別されたエラーをすべて除去することで,利用可能なラベル付きデータに対するトレーニングよりも高い精度が得られることを示す。
重要なことは、ラベルエラーの検出に対する我々の貢献に加えて、特に、現実的なクラス依存ラベルエラーを合成的に生成する新しいアプローチを提案することである。
全体として、UQ-LEDアルゴリズムでデータセットを選択的にクリーニングすることは、より大きくノイズの多いデータセットを使用するよりも、より正確な分類につながることを示す。
関連論文リスト
- Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Improving Opinion-based Question Answering Systems Through Label Error
Detection and Overwrite [4.894035903847371]
本稿では,ラベル誤り検出とオーバーライトのためのモデルに依存しない,計算的に効率的なフレームワーク LEDO を提案する。
LEDOはモンテカルロ・ドロップアウトと不確実性メトリクスを組み合わせており、複数のタスクやデータセットに簡単に一般化できる。
LEDOを業界意見に基づく質問応答システムに適用することは、すべてのコアモデルの精度を向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-13T02:20:58Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Identifying Label Errors in Object Detection Datasets by Loss Inspection [4.442111891959355]
本稿では,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークを紹介する。
そこで本研究では,軌道上でランダムに導入した4種類のラベルエラーと,良好なラベル付きオブジェクト検出データセットの試験セットをシミュレートする。
論文 参考訳(メタデータ) (2023-03-13T10:54:52Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - CTRL: Clustering Training Losses for Label Error Detection [4.49681473359251]
教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。
本稿では,ラベル誤り検出のための新しいフレームワークClustering TRaining Lossesを提案する。
モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。
論文 参考訳(メタデータ) (2022-08-17T18:09:19Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。