論文の概要: We don't need no labels: Estimating post-deployment model performance
under covariate shift without ground truth
- arxiv url: http://arxiv.org/abs/2401.08348v1
- Date: Tue, 16 Jan 2024 13:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:00:07.810630
- Title: We don't need no labels: Estimating post-deployment model performance
under covariate shift without ground truth
- Title(参考訳): ラベルは必要ない: 根拠のない共変量シフトの下での展開後のモデルパフォーマンスの推定
- Authors: Jakub Bia{\l}ek, Wojtek Kuberski, Nikolaos Perrakis
- Abstract要約: 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。
ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定法を提案する。
M-CBPEはモデルおよびデータ型非依存であり、任意のパフォーマンス指標で機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The performance of machine learning models often degrades after deployment
due to data distribution shifts. In many use cases, it is impossible to
calculate the post-deployment performance because labels are unavailable or
significantly delayed. Proxy methods for evaluating model performance
stability, like drift detection techniques, do not properly quantify data
distribution shift impact. As a solution, we propose a robust and accurate
performance estimation method for evaluating ML classification models on
unlabeled data that accurately quantifies the impact of covariate shift on
model performance. We call it multi-calibrated confidence-based performance
estimation (M-CBPE). It is model and data-type agnostic and works for any
performance metric. It does not require access to the monitored model - it uses
the model predictions and probability estimates. M-CBPE does not need user
input on the nature of the covariate shift as it fully learns from the data. We
evaluate it with over 600 dataset-model pairs from US census data and compare
it with multiple benchmarks using several evaluation metrics. Results show that
M-CBPE is the best method to estimate the performance of classification models
in any evaluation context.
- Abstract(参考訳): 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。
多くのユースケースにおいて、ラベルが使用できない、あるいは著しく遅れているため、デプロイ後のパフォーマンスを計算することは不可能である。
ドリフト検出技術のようなモデル性能安定性を評価するプロキシ手法は、データ分散シフトの影響を適切に定量化しない。
そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価する,ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定手法を提案する。
マルチカタリテッド信頼度ベースパフォーマンス推定(m-cbpe)と呼ぶ。
モデルとデータタイプの非依存であり、あらゆるパフォーマンス指標で機能する。
監視されたモデルへのアクセスは不要で、モデル予測と確率推定を使用する。
M-CBPEは、データから完全に学習するため、共変量シフトの性質に関するユーザ入力を必要としない。
米国国勢調査データから600以上のデータセット-モデルペアで評価し、複数の評価指標を用いて複数のベンチマークと比較した。
その結果,M-CBPEは任意の評価文脈における分類モデルの性能を推定する最良の方法であることがわかった。
関連論文リスト
- Distance Matters For Improving Performance Estimation Under Covariate
Shift [18.68533487971233]
データセットのシフトの下では、サンプルがトレーニング分布から遠すぎると、信頼性スコアが低下する可能性がある。
実験結果から期待するトレーニング分布までの距離を考慮に入れれば,性能評価が大幅に向上することを示す。
本研究では, 自然分布と合成分布の広範にわたる13の画像分類課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-14T15:49:19Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unsupervised Model Drift Estimation with Batch Normalization Statistics
for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。
本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文 参考訳(メタデータ) (2021-07-01T03:04:47Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。