論文の概要: Data-Driven Estimation of the False Positive Rate of the Bayes Binary
Classifier via Soft Labels
- arxiv url: http://arxiv.org/abs/2401.15500v1
- Date: Sat, 27 Jan 2024 20:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:03:58.184710
- Title: Data-Driven Estimation of the False Positive Rate of the Bayes Binary
Classifier via Soft Labels
- Title(参考訳): ソフトラベルを用いたベイズ二項分類器の偽陽性率のデータ駆動推定
- Authors: Minoh Jeong, Martina Cardone, Alex Dytso
- Abstract要約: 本稿では,与えられたデータセットからベイズ分類器の誤り陽性率(FPR)を推定する。
我々は,デノナイジング手法とNadaraya-Watson推定器を利用した効果的なFPR推定器を開発した。
- 参考スコア(独自算出の注目度): 25.40796153743837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classification is a fundamental task in many applications on which
data-driven methods have shown outstanding performances. However, it is
challenging to determine whether such methods have achieved the optimal
performance. This is mainly because the best achievable performance is
typically unknown and hence, effectively estimating it is of prime importance.
In this paper, we consider binary classification problems and we propose an
estimator for the false positive rate (FPR) of the Bayes classifier, that is,
the optimal classifier with respect to accuracy, from a given dataset. Our
method utilizes soft labels, or real-valued labels, which are gaining
significant traction thanks to their properties. We thoroughly examine various
theoretical properties of our estimator, including its consistency,
unbiasedness, rate of convergence, and variance. To enhance the versatility of
our estimator beyond soft labels, we also consider noisy labels, which
encompass binary labels. For noisy labels, we develop effective FPR estimators
by leveraging a denoising technique and the Nadaraya-Watson estimator. Due to
the symmetry of the problem, our results can be readily applied to estimate the
false negative rate of the Bayes classifier.
- Abstract(参考訳): 分類は、データ駆動型メソッドが優れた性能を示す多くのアプリケーションにおいて基本的なタスクである。
しかし,このような手法が最適性能を達成したかどうかを判断することは困難である。
これは、最も達成可能なパフォーマンスが一般的に不明であるため、効果的に見積もることが最重要である。
本稿では,二項分類問題について考察し,与えられたデータセットからベイズ分類器の偽陽性率(fpr),すなわち精度に関する最適分類器の推定器を提案する。
本手法はソフトラベル(実値ラベル)を用いており,その特性により大きなトラクションを得ている。
我々は,その一貫性,不偏性,収束率,分散など,推定器の様々な理論的特性を徹底的に検討する。
ソフトラベル以外の推定器の汎用性を高めるために,バイナリラベルを包含するノイズラベルについても検討する。
雑音ラベルに対しては, ノイズ除去手法とNadaraya-Watson推定器を利用して, 有効なFPR推定器を開発する。
問題の対称性のため、ベイズ分類器の偽陰率を推定するために、我々の結果は容易に適用できる。
関連論文リスト
- Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T13:12:29Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Lifting Weak Supervision To Structured Prediction [12.219011764895853]
弱監督 (WS) は、容易に得られるがノイズの多いラベル推定を集約することで擬似ラベルを生成する、豊富な手法のセットである。
擬ユークリッド埋め込みとテンソル分解に基づく弱監督手法を提案する。
ノイズのあるラベルを持つ構造化予測において頑健性を保証するとみなすこの結果のいくつかは、独立した関心事である可能性がある。
論文 参考訳(メタデータ) (2022-11-24T02:02:58Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Error-Bounded Correction of Noisy Labels [17.510654621245656]
ノイズのある分類器の予測は、トレーニングデータのラベルがクリーンかどうかを示す良い指標であることを示す。
理論的結果に基づいて,雑音分類器の予測に基づいてラベルを補正する新しいアルゴリズムを提案する。
ラベル補正アルゴリズムをディープニューラルネットワークのトレーニングや,複数の公開データセット上で優れたテスト性能を実現するトレーニングモデルに組み込む。
論文 参考訳(メタデータ) (2020-11-19T19:23:23Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。