論文の概要: Estimating Model Performance Under Covariate Shift Without Labels
- arxiv url: http://arxiv.org/abs/2401.08348v2
- Date: Thu, 9 May 2024 18:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:07:31.330435
- Title: Estimating Model Performance Under Covariate Shift Without Labels
- Title(参考訳): ラベルのない共変量シフト下でのモデル性能の推定
- Authors: Jakub Białek, Wojtek Kuberski, Nikolaos Perrakis, Albert Bifet,
- Abstract要約: ラベルなしデータの分類モデルを評価するための確率的適応性能推定(PAPE)を提案する。
PAPEは元のモデルとは独立して動作し、予測と確率推定のみに依存し、シフトの性質に関する仮定は不要である。
我々は、米国国勢調査データから900以上のデータセットモデルの組み合わせを用いてPAPEを試験し、様々な指標を用いて、その性能をいくつかのベンチマークで評価した。
- 参考スコア(独自算出の注目度): 9.804680621164168
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning models often experience performance degradation post-deployment due to shifts in data distribution. It is challenging to assess post-deployment performance accurately when labels are missing or delayed. Existing proxy methods, such as drift detection, fail to measure the effects of these shifts adequately. To address this, we introduce a new method for evaluating classification models on unlabeled data that accurately quantifies the impact of covariate shift on model performance and call it Probabilistic Adaptive Performance Estimation (PAPE). It is model and data-type agnostic and works for any performance metric. Crucially, PAPE operates independently of the original model, relying only on its predictions and probability estimates, and does not need any assumptions about the nature of the shift, learning directly from data instead. We tested PAPE using over 900 dataset-model combinations from US census data, assessing its performance against several benchmarks through various metrics. Our findings show that PAPE outperforms other methodologies, making it a superior choice for estimating the performance of classification models.
- Abstract(参考訳): マシンラーニングモデルは、データ分散の変化によるデプロイ後のパフォーマンス劣化を経験することが多い。
ラベルの欠落や遅延を正確に評価することは困難である。
ドリフト検出のような既存のプロキシ手法では、これらのシフトの影響を適切に測定できない。
そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価し,確率適応性能推定(PAPE)と呼ぶ,ラベルのないデータに基づく分類モデルの評価手法を提案する。
モデルとデータタイプの非依存であり、あらゆるパフォーマンス指標で機能する。
重要なことに、PAPEは元のモデルとは独立して動作し、予測と確率推定のみに依存し、代わりにデータから直接学習する、シフトの性質に関する仮定は不要である。
我々は、米国国勢調査データから900以上のデータセットモデルの組み合わせを用いてPAPEを試験し、様々な指標を用いて、その性能をいくつかのベンチマークで評価した。
本研究は,PAPEが他の手法よりも優れており,分類モデルの性能を推定する上で優れた選択肢であることを示す。
関連論文リスト
- Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Performance Prediction Under Dataset Shift [1.1602089225841632]
生成した合成摂動を学習し,様々な性能予測モデルの新たな領域への一般化能力について検討する。
本稿では,性能予測器の信頼性を保証するために,予測精度の自然な不確実性評価を提案する。
論文 参考訳(メタデータ) (2022-06-21T19:40:58Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - PUMA: Performance Unchanged Model Augmentation for Training Data Removal [2.8468089304148445]
本稿では,PUMA(Performance Unchanged Model Augmentation)と呼ばれる新しい手法を提案する。
提案するPUMAフレームワークは、各トレーニングデータポイントがモデルの一般化能力に与える影響を明示的にモデル化する。
PUMAは,モデルを再トレーニングすることなく,マーク付きトレーニングデータのユニークな特徴を効果的かつ効率的に除去できることを示す。
論文 参考訳(メタデータ) (2022-03-02T03:40:17Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。