論文の概要: Bayes Error Rate Estimation in Difficult Situations
- arxiv url: http://arxiv.org/abs/2506.03159v1
- Date: Wed, 21 May 2025 19:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.688128
- Title: Bayes Error Rate Estimation in Difficult Situations
- Title(参考訳): 難易度におけるベイズ誤差率の推定
- Authors: Lesley Wheat, Martin v. Mohrenschildt, Saeid Habibi,
- Abstract要約: ベイズ誤り率(英: Bayes Error Rate、BER)は、任意の機械学習モデルの達成可能な一般化可能な分類精度の基本的な限界である。
本稿では,「有用性」の最小要件を満たす推定器について検討する。
新しいテストシナリオが導入され、シナリオ毎に2500モンテカルロシミュレーションがさまざまなBER値上で実行される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bayes Error Rate (BER) is the fundamental limit on the achievable generalizable classification accuracy of any machine learning model due to inherent uncertainty within the data. BER estimators offer insight into the difficulty of any classification problem and set expectations for optimal classification performance. In order to be useful, the estimators must also be accurate with a limited number of samples on multivariate problems with unknown class distributions. To determine which estimators meet the minimum requirements for "usefulness", an in-depth examination of their accuracy is conducted using Monte Carlo simulations with synthetic data in order to obtain their confidence bounds for binary classification. To examine the usability of the estimators on real-world applications, new test scenarios are introduced upon which 2500 Monte Carlo simulations per scenario are run over a wide range of BER values. In a comparison of k-Nearest Neighbor (kNN), Generalized Henze-Penrose (GHP) divergence and Kernel Density Estimation (KDE) techniques, results show that kNN is overwhelmingly the more accurate non-parametric estimator. In order to reach the target of an under 5 percent range for the 95 percent confidence bounds, the minimum number of required samples per class is 1000. As more features are added, more samples are needed, so that 2500 samples per class are required at only 4 features. Other estimators do become more accurate than kNN as more features are added, but continuously fail to meet the target range.
- Abstract(参考訳): ベイズ誤り率(BER)は、データに固有の不確実性があるため、任意の機械学習モデルの達成可能な一般化可能な分類精度の基本的な限界である。
BER推定器は任意の分類問題の難しさを洞察し、最適な分類性能を期待する。
有効にするためには、推定子は未知のクラス分布を持つ多変量問題に関する限られたサンプルで正確でなければならない。
どの推定器が「有用性」の最低要件を満たすかを決定するため、モンテカルロシミュレーションと合成データを用いて、二項分類の信頼性境界を求める。
実世界のアプリケーションにおける推定器の使用性を調べるため,シナリオ当たり2500モンテカルロシミュレーションを広範囲のBER値上で実行するための新しいテストシナリオが導入された。
k-Nearest Neighbor (kNN), Generalized Henze-Penrose (GHP) divergence and Kernel Density Estimation (KDE) technique と比較すると,kNNはより正確な非パラメトリック推定器であることがわかった。
95%の信頼範囲で5%以下の目標に達するために、クラス毎の必要サンプルの最小数は1000である。
より多くの機能が追加されるにつれて、より多くのサンプルが必要になり、クラス毎に2500のサンプルが4つの機能で必要になる。
他の推定器は、より多くの機能が追加されるにつれてkNNよりも正確になるが、目標範囲を継続的に満たさない。
関連論文リスト
- How to Fix a Broken Confidence Estimator: Evaluating Post-hoc Methods for Selective Classification with Deep Neural Networks [1.4502611532302039]
我々は,ロジットの単純な$p$-norm正規化を行い,次に最大ロジットを信頼度推定器とすることで,選択的分類性能が著しく向上することを示した。
我々の結果は、分布シフトの下で一貫していることが示されている。
論文 参考訳(メタデータ) (2023-05-24T18:56:55Z) - Gaussian Latent Representations for Uncertainty Estimation using
Mahalanobis Distance in Deep Classifiers [1.5088605208312555]
本稿では,マハラノビス距離に基づく不確実性予測のための軽量で高速かつ高性能な正規化手法を提案する。
微生物分類における実生活コンピュータビジョン利用事例への本手法の適用性を示す。
論文 参考訳(メタデータ) (2023-05-23T09:18:47Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - What Can We Learn From The Selective Prediction And Uncertainty
Estimation Performance Of 523 Imagenet Classifiers [15.929238800072195]
本稿では,既存の523の事前学習深層画像ネット分類器の選択的予測と不確実性評価性能について述べる。
蒸留法に基づくトレーニング体制は、他のトレーニング方式よりも常により良い不確実性推定を導出することを発見した。
例えば、ImageNetでは前例のない99%のトップ1選択精度を47%で発見しました。
論文 参考訳(メタデータ) (2023-02-23T09:25:28Z) - Low-Shot Validation: Active Importance Sampling for Estimating
Classifier Performance on Rare Categories [47.050853657721596]
限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。
稀なカテゴリのバイナリ分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案する。
特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。
論文 参考訳(メタデータ) (2021-09-13T06:01:16Z) - Robust Importance Sampling for Error Estimation in the Context of
Optimal Bayesian Transfer Learning [13.760785726194591]
最適ベイズ移動学習のための最小平均二乗誤差推定器(MMSE)を新たに導入する。
提案した推定器を用いて,多様な学習能力にまたがる幅広い分類器の分類精度を評価する。
合成データと実世界のRNAシークエンシング(RNA-seq)データの両方に基づく実験結果から,提案したOBTL誤差推定手法が標準誤差推定器より明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-09-05T19:11:33Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。