Fugu-MT 論文翻訳(概要): We don't need no labels: Estimating post-deployment model performance under covariate shift without ground truth

論文の概要: We don't need no labels: Estimating post-deployment model performance under covariate shift without ground truth

arxiv url: http://arxiv.org/abs/2401.08348v1
Date: Tue, 16 Jan 2024 13:29:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 14:00:07.810630
Title: We don't need no labels: Estimating post-deployment model performance under covariate shift without ground truth
Title（参考訳）: ラベルは必要ない: 根拠のない共変量シフトの下での展開後のモデルパフォーマンスの推定
Authors: Jakub Bia{\l}ek, Wojtek Kuberski, Nikolaos Perrakis
Abstract要約: 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定法を提案する。 M-CBPEはモデルおよびデータ型非依存であり、任意のパフォーマンス指標で機能する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The performance of machine learning models often degrades after deployment due to data distribution shifts. In many use cases, it is impossible to calculate the post-deployment performance because labels are unavailable or significantly delayed. Proxy methods for evaluating model performance stability, like drift detection techniques, do not properly quantify data distribution shift impact. As a solution, we propose a robust and accurate performance estimation method for evaluating ML classification models on unlabeled data that accurately quantifies the impact of covariate shift on model performance. We call it multi-calibrated confidence-based performance estimation (M-CBPE). It is model and data-type agnostic and works for any performance metric. It does not require access to the monitored model - it uses the model predictions and probability estimates. M-CBPE does not need user input on the nature of the covariate shift as it fully learns from the data. We evaluate it with over 600 dataset-model pairs from US census data and compare it with multiple benchmarks using several evaluation metrics. Results show that M-CBPE is the best method to estimate the performance of classification models in any evaluation context.
Abstract（参考訳）: 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。多くのユースケースにおいて、ラベルが使用できない、あるいは著しく遅れているため、デプロイ後のパフォーマンスを計算することは不可能である。ドリフト検出技術のようなモデル性能安定性を評価するプロキシ手法は、データ分散シフトの影響を適切に定量化しない。そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価する,ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定手法を提案する。マルチカタリテッド信頼度ベースパフォーマンス推定(m-cbpe)と呼ぶ。モデルとデータタイプの非依存であり、あらゆるパフォーマンス指標で機能する。監視されたモデルへのアクセスは不要で、モデル予測と確率推定を使用する。 M-CBPEは、データから完全に学習するため、共変量シフトの性質に関するユーザ入力を必要としない。米国国勢調査データから600以上のデータセット-モデルペアで評価し、複数の評価指標を用いて複数のベンチマークと比較した。その結果,M-CBPEは任意の評価文脈における分類モデルの性能を推定する最良の方法であることがわかった。

関連論文リスト

Generalization is not a universal guarantee: Estimating similarity to training data with an ensemble out-of-distribution metric [0.09363323206192666]
機械学習モデルの新しいデータへの一般化の失敗は、AIシステムの信頼性を制限する中核的な問題である。本稿では、一般化可能性推定(SAGE)のための教師付きオートエンコーダを構築することにより、データの類似性を評価するための標準化されたアプローチを提案する。モデル自体のトレーニングやテストデータセットのデータに適用しても,SAGEスコアのフィルタリング後にアウト・オブ・ボックスモデルの性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-22T19:21:50Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文参考訳（メタデータ） (2024-03-31T17:33:43Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
A prediction and behavioural analysis of machine learning methods for modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文参考訳（メタデータ） (2023-01-11T11:10:32Z)
Estimating Model Performance under Domain Shifts with Class-Specific Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文参考訳（メタデータ） (2022-07-20T15:04:32Z)
Performance Prediction Under Dataset Shift [1.1602089225841632]
生成した合成摂動を学習し,様々な性能予測モデルの新たな領域への一般化能力について検討する。本稿では,性能予測器の信頼性を保証するために,予測精度の自然な不確実性評価を提案する。
論文参考訳（メタデータ） (2022-06-21T19:40:58Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
PUMA: Performance Unchanged Model Augmentation for Training Data Removal [2.8468089304148445]
本稿では,PUMA(Performance Unchanged Model Augmentation)と呼ばれる新しい手法を提案する。提案するPUMAフレームワークは、各トレーニングデータポイントがモデルの一般化能力に与える影響を明示的にモデル化する。 PUMAは,モデルを再トレーニングすることなく,マーク付きトレーニングデータのユニークな特徴を効果的かつ効率的に除去できることを示す。
論文参考訳（メタデータ） (2022-03-02T03:40:17Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文参考訳（メタデータ） (2021-07-07T15:50:18Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。