論文の概要: FPR Estimation for Fraud Detection in the Presence of Class-Conditional
Label Noise
- arxiv url: http://arxiv.org/abs/2308.02695v1
- Date: Fri, 4 Aug 2023 20:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:19:37.286363
- Title: FPR Estimation for Fraud Detection in the Presence of Class-Conditional
Label Noise
- Title(参考訳): クラス条件ラベル雑音下における不正検出のためのfpr推定
- Authors: Justin Tittelfitz
- Abstract要約: 検証セットに誤りラベル(ラベルノイズ)が存在する場合、二項分類モデルに対して偽/真陽性レート(FPR/TPR)を推定する問題を考察する。
当社のモチベーション応用は不正防止であり,FPRの正確な推定値が顧客エクスペリエンスの維持に不可欠である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of estimating the false-/ true-positive-rate
(FPR/TPR) for a binary classification model when there are incorrect labels
(label noise) in the validation set. Our motivating application is fraud
prevention where accurate estimates of FPR are critical to preserving the
experience for good customers, and where label noise is highly asymmetric.
Existing methods seek to minimize the total error in the cleaning process - to
avoid cleaning examples that are not noise, and to ensure cleaning of examples
that are. This is an important measure of accuracy but insufficient to
guarantee good estimates of the true FPR or TPR for a model, and we show that
using the model to directly clean its own validation data leads to
underestimates even if total error is low. This indicates a need for
researchers to pursue methods that not only reduce total error but also seek to
de-correlate cleaning error with model scores.
- Abstract(参考訳): 検証セットに誤りラベル(ラベルノイズ)がある場合,二項分類モデルにおいて偽陽性率(fpr/tpr)を推定する問題を考える。
当社のモチベーション応用は,FPRの正確な推定が顧客エクスペリエンスの維持に不可欠であり,ラベルノイズが高度に非対称である不正防止である。
既存の方法は、ノイズでないサンプルのクリーニングを回避し、サンプルのクリーニングを確実にするため、クリーニングプロセスにおける総エラーを最小限にすることを目指している。
これは精度の重要な尺度であるが、モデルに対する真のFPRやTPRの正確な推定を保証するには不十分である。
このことは、研究者が総誤差を減らしただけでなく、クリーニングエラーをモデルスコアと非相関する手法を追求する必要性を示している。
関連論文リスト
- Precision and Recall Reject Curves for Classification [1.2507543279181126]
本稿では、精度とリコール、リコール・リジェクト曲線、精度・リジェクト曲線を評価するリジェクション曲線を提案する。
不均衡なベンチマークと、これらのシナリオに対して提案された精度とリコール曲線によりより正確な洞察が得られる実世界の医療データを示す。
論文 参考訳(メタデータ) (2023-08-16T14:09:48Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Is the Performance of My Deep Network Too Good to Be True? A Direct
Approach to Estimating the Bayes Error in Binary Classification [86.32752788233913]
分類問題において、ベイズ誤差は、最先端の性能を持つ分類器を評価するための基準として用いられる。
我々はベイズ誤差推定器を提案する。そこでは,クラスの不確かさを示すラベルの平均値のみを評価できる。
我々の柔軟なアプローチは、弱い教師付きデータであってもベイズ誤差を推定できる。
論文 参考訳(メタデータ) (2022-02-01T13:22:26Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Low-Shot Validation: Active Importance Sampling for Estimating
Classifier Performance on Rare Categories [47.050853657721596]
限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。
稀なカテゴリのバイナリ分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案する。
特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。
論文 参考訳(メタデータ) (2021-09-13T06:01:16Z) - Robustness of Accuracy Metric and its Inspirations in Learning with
Noisy Labels [51.66448070984615]
十分な数の雑音サンプルに対してトレーニング精度を最大化すると,ほぼ最適な分類器が得られることを示す。
検証のために、ノイズの多い検証セットが信頼できることを証明し、モデル選択のクリティカルな要求に対処する。
理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴付けを行い,ノイズ検証セットの有用性を検証する。
論文 参考訳(メタデータ) (2020-12-08T03:37:47Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。