論文の概要: We don't need no labels: Estimating post-deployment model performance
under covariate shift without ground truth
- arxiv url: http://arxiv.org/abs/2401.08348v1
- Date: Tue, 16 Jan 2024 13:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:00:07.810630
- Title: We don't need no labels: Estimating post-deployment model performance
under covariate shift without ground truth
- Title(参考訳): ラベルは必要ない: 根拠のない共変量シフトの下での展開後のモデルパフォーマンスの推定
- Authors: Jakub Bia{\l}ek, Wojtek Kuberski, Nikolaos Perrakis
- Abstract要約: 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。
ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定法を提案する。
M-CBPEはモデルおよびデータ型非依存であり、任意のパフォーマンス指標で機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The performance of machine learning models often degrades after deployment
due to data distribution shifts. In many use cases, it is impossible to
calculate the post-deployment performance because labels are unavailable or
significantly delayed. Proxy methods for evaluating model performance
stability, like drift detection techniques, do not properly quantify data
distribution shift impact. As a solution, we propose a robust and accurate
performance estimation method for evaluating ML classification models on
unlabeled data that accurately quantifies the impact of covariate shift on
model performance. We call it multi-calibrated confidence-based performance
estimation (M-CBPE). It is model and data-type agnostic and works for any
performance metric. It does not require access to the monitored model - it uses
the model predictions and probability estimates. M-CBPE does not need user
input on the nature of the covariate shift as it fully learns from the data. We
evaluate it with over 600 dataset-model pairs from US census data and compare
it with multiple benchmarks using several evaluation metrics. Results show that
M-CBPE is the best method to estimate the performance of classification models
in any evaluation context.
- Abstract(参考訳): 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。
多くのユースケースにおいて、ラベルが使用できない、あるいは著しく遅れているため、デプロイ後のパフォーマンスを計算することは不可能である。
ドリフト検出技術のようなモデル性能安定性を評価するプロキシ手法は、データ分散シフトの影響を適切に定量化しない。
そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価する,ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定手法を提案する。
マルチカタリテッド信頼度ベースパフォーマンス推定(m-cbpe)と呼ぶ。
モデルとデータタイプの非依存であり、あらゆるパフォーマンス指標で機能する。
監視されたモデルへのアクセスは不要で、モデル予測と確率推定を使用する。
M-CBPEは、データから完全に学習するため、共変量シフトの性質に関するユーザ入力を必要としない。
米国国勢調査データから600以上のデータセット-モデルペアで評価し、複数の評価指標を用いて複数のベンチマークと比較した。
その結果,M-CBPEは任意の評価文脈における分類モデルの性能を推定する最良の方法であることがわかった。
関連論文リスト
- Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Performance Prediction Under Dataset Shift [1.1602089225841632]
生成した合成摂動を学習し,様々な性能予測モデルの新たな領域への一般化能力について検討する。
本稿では,性能予測器の信頼性を保証するために,予測精度の自然な不確実性評価を提案する。
論文 参考訳(メタデータ) (2022-06-21T19:40:58Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - PUMA: Performance Unchanged Model Augmentation for Training Data Removal [2.8468089304148445]
本稿では,PUMA(Performance Unchanged Model Augmentation)と呼ばれる新しい手法を提案する。
提案するPUMAフレームワークは、各トレーニングデータポイントがモデルの一般化能力に与える影響を明示的にモデル化する。
PUMAは,モデルを再トレーニングすることなく,マーク付きトレーニングデータのユニークな特徴を効果的かつ効率的に除去できることを示す。
論文 参考訳(メタデータ) (2022-03-02T03:40:17Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。