論文の概要: Adaptive Label Error Detection: A Bayesian Approach to Mislabeled Data Detection
- arxiv url: http://arxiv.org/abs/2601.10084v1
- Date: Thu, 15 Jan 2026 05:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.999642
- Title: Adaptive Label Error Detection: A Bayesian Approach to Mislabeled Data Detection
- Title(参考訳): Adaptive Label Error Detection: A Bayesian Approach to Mislabeled Data Detection
- Authors: Zan Chaudhry, Noam H. Rotenberg, Brian Caffo, Craig K. Jones, Haris I. Sair,
- Abstract要約: 本稿では, 誤り検出手法である適応ラベル誤り検出(Adaptive Label Error Detection, ALED)のモチベーションと記述を行う。
ALEDは、確立されたラベル誤り検出方法と比較して、精度を損なうことなく、感度を著しく向上させた。
修正データ上でニューラルネットワークを微調整すると、テストセットエラーが33.8%減少する例を示す。
- 参考スコア(独自算出の注目度): 0.5284217353503208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning classification systems are susceptible to poor performance when trained with incorrect ground truth labels, even when data is well-curated by expert annotators. As machine learning becomes more widespread, it is increasingly imperative to identify and correct mislabeling to develop more powerful models. In this work, we motivate and describe Adaptive Label Error Detection (ALED), a novel method of detecting mislabeling. ALED extracts an intermediate feature space from a deep convolutional neural network, denoises the features, models the reduced manifold of each class with a multidimensional Gaussian distribution, and performs a simple likelihood ratio test to identify mislabeled samples. We show that ALED has markedly increased sensitivity, without compromising precision, compared to established label error detection methods, on multiple medical imaging datasets. We demonstrate an example where fine-tuning a neural network on corrected data results in a 33.8% decrease in test set errors, providing strong benefits to end users. The ALED detector is deployed in the Python package statlab.
- Abstract(参考訳): 機械学習の分類システムは、専門家のアノテータによってデータが十分に評価されている場合でも、誤った地上の真理ラベルで訓練された場合、パフォーマンスが低下する可能性がある。
機械学習が普及するにつれて、より強力なモデルを開発するために、誤ラベルを特定し、修正することがますます必須になっている。
本研究では, 誤り検出の新しい手法である適応ラベル誤り検出(Adaptive Label Error Detection, ALED)のモチベーションと記述を行う。
ALEDは、深層畳み込みニューラルネットワークから中間特徴空間を抽出し、特徴を識別し、多次元ガウス分布を持つ各クラスの縮小多様体をモデル化し、誤ラベルされたサンプルを特定するための単純な可能性比検定を行う。
複数の医用画像データセットにおけるラベル誤り検出法と比較して, ALED は精度を損なうことなく, 感度が著しく向上したことを示す。
修正されたデータにニューラルネットワークを微調整すると、テストセットエラーが33.8%減少し、エンドユーザに強力なメリットをもたらす例を示す。
ALED検出器はPythonパッケージstatlabにデプロイされる。
関連論文リスト
- Detecting and Rectifying Noisy Labels: A Similarity-based Approach [4.686586017523293]
データセットのラベルノイズは、これらのデータセットでトレーニングされたディープニューラルネットワーク(DNN)のパフォーマンスと堅牢性を著しく損なう可能性がある。
提案手法は,DNNの入射特性を利用したポストホック・モデル非依存ノイズ検出・修正手法である。
我々の考えは、誤ラベル付きデータポイントと真のクラスデータポイントとの類似性は他のクラスのデータポイントよりも高いという観察に基づいている。
論文 参考訳(メタデータ) (2025-09-28T16:41:56Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Identifying Label Errors in Object Detection Datasets by Loss Inspection [4.442111891959355]
本稿では,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークを紹介する。
そこで本研究では,軌道上でランダムに導入した4種類のラベルエラーと,良好なラベル付きオブジェクト検出データセットの試験セットをシミュレートする。
論文 参考訳(メタデータ) (2023-03-13T10:54:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - CTRL: Clustering Training Losses for Label Error Detection [4.49681473359251]
教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。
本稿では,ラベル誤り検出のための新しいフレームワークClustering TRaining Lossesを提案する。
モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。
論文 参考訳(メタデータ) (2022-08-17T18:09:19Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。