論文の概要: Calibration improves detection of mislabeled examples
- arxiv url: http://arxiv.org/abs/2511.02738v1
- Date: Tue, 04 Nov 2025 17:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.11812
- Title: Calibration improves detection of mislabeled examples
- Title(参考訳): キャリブレーションは誤記例の検出を改善する
- Authors: Ilies Chibane, Thomas George, Pierre Nodet, Vincent Lemaire,
- Abstract要約: ミスラベルデータ(Mislabeled data)は、現実世界のアプリケーションにおける機械学習システムのパフォーマンスを損なう、広範な問題である。
自動的な誤ラベル検出方法は、通常、ベース機械学習モデルのトレーニングに頼り、各インスタンスに対して、提供されたラベルが本物または正しくない信頼スコアを取得するために、それを探索する。
実験結果から, キャリブレーション法を用いることで, 誤ラベル検出の精度とロバスト性が向上することが示された。
- 参考スコア(独自算出の注目度): 0.11146646042983178
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mislabeled data is a pervasive issue that undermines the performance of machine learning systems in real-world applications. An effective approach to mitigate this problem is to detect mislabeled instances and subject them to special treatment, such as filtering or relabeling. Automatic mislabeling detection methods typically rely on training a base machine learning model and then probing it for each instance to obtain a trust score that each provided label is genuine or incorrect. The properties of this base model are thus of paramount importance. In this paper, we investigate the impact of calibrating this model. Our empirical results show that using calibration methods improves the accuracy and robustness of mislabeled instance detection, providing a practical and effective solution for industrial applications.
- Abstract(参考訳): ミスラベルデータ(Mislabeled data)は、現実世界のアプリケーションにおける機械学習システムのパフォーマンスを損なう、広範な問題である。
この問題を緩和するための効果的なアプローチは、誤ラベルされたインスタンスを検出し、フィルタリングやレバーベリングのような特別な処理を施すことである。
自動ラベル検出方法は通常、ベース機械学習モデルのトレーニングに頼り、各インスタンスに対して、提供されたラベルが真偽である信頼スコアを取得する。
したがって、この基本モデルの性質は最重要事項である。
本稿では,このモデルの校正効果について検討する。
実験結果から, キャリブレーション法を用いることで, 誤ラベル検出の精度と堅牢性が向上し, 産業用途の実用的, 効果的なソリューションが得られた。
関連論文リスト
- Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - AQuA: A Benchmarking Tool for Label Quality Assessment [16.83510474053401]
近年の研究では、機械学習モデルのトレーニングと評価に広く使用されているデータセットに、広範なラベル付けエラーがあることがわかった。
本稿では,ラベルノイズの存在下で機械学習を可能にする手法を厳格に評価するためのベンチマーク環境AQuAを提案する。
論文 参考訳(メタデータ) (2023-06-15T19:42:11Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Variable-Based Calibration for Machine Learning Classifiers [11.9995808096481]
モデルのキャリブレーション特性を特徴付けるために,変数ベースのキャリブレーションの概念を導入する。
ほぼ完全なキャリブレーション誤差を持つモデルでは,データの特徴の関数としてかなりの誤校正が期待できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T00:49:31Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。