論文の概要: Confidence-based Estimators for Predictive Performance in Model Monitoring
- arxiv url: http://arxiv.org/abs/2407.08649v1
- Date: Thu, 11 Jul 2024 16:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:40:31.936540
- Title: Confidence-based Estimators for Predictive Performance in Model Monitoring
- Title(参考訳): 信頼度に基づくモデルモニタリングにおける予測性能評価
- Authors: Juhani Kivimäki, Jakub Białek, Jukka K. Nurminen, Wojtek Kuberski,
- Abstract要約: マシンラーニングモデルが本番環境にデプロイされた後、その予測パフォーマンスを監視する必要がある。
近年,地中真実が得られない場合の予測性能を推定する新たな手法が開発されている。
一般的な仮定では、平均信頼度(AC)法はモデル精度の偏りのない一貫した推定器であることが示される。
- 参考スコア(独自算出の注目度): 0.5399800035598186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: After a machine learning model has been deployed into production, its predictive performance needs to be monitored. Ideally, such monitoring can be carried out by comparing the model's predictions against ground truth labels. For this to be possible, the ground truth labels must be available relatively soon after inference. However, there are many use cases where ground truth labels are available only after a significant delay, or in the worst case, not at all. In such cases, directly monitoring the model's predictive performance is impossible. Recently, novel methods for estimating the predictive performance of a model when ground truth is unavailable have been developed. Many of these methods leverage model confidence or other uncertainty estimates and are experimentally compared against a naive baseline method, namely Average Confidence (AC), which estimates model accuracy as the average of confidence scores for a given set of predictions. However, until now the theoretical properties of the AC method have not been properly explored. In this paper, we try to fill this gap by reviewing the AC method and show that under certain general assumptions, it is an unbiased and consistent estimator of model accuracy with many desirable properties. We also compare this baseline estimator against some more complex estimators empirically and show that in many cases the AC method is able to beat the others, although the comparative quality of the different estimators is heavily case-dependent.
- Abstract(参考訳): マシンラーニングモデルが本番環境にデプロイされた後、その予測パフォーマンスを監視する必要がある。
理想的には、そのようなモニタリングは、モデルの予測と地上の真理ラベルを比較することで行うことができる。
これを可能にするためには、推論後比較的早く、基礎となる真理ラベルを利用できなければならない。
しかし、重大な遅延の後にのみ、あるいは最悪の場合にのみ、根拠となる真理ラベルが利用可能となるユースケースが数多く存在する。
このような場合、モデルの予測性能を直接監視することは不可能である。
近年,地中真実が得られない場合の予測性能を推定する新たな手法が開発されている。
これらの手法の多くはモデル信頼度または他の不確実性推定を利用しており、与えられた予測セットに対する信頼スコアの平均としてモデル精度を推定する平均信頼度(Average Confidence, AAC)という単純なベースライン法と実験的に比較される。
しかし、これまでAC法の理論的性質は十分に研究されていない。
本稿では、このギャップをAC法を検証し、ある一般的な仮定の下では、多くの望ましい特性を持つモデル精度の偏りのない一貫した推定器であることを示そうとする。
また、このベースライン推定器と、より複雑な推定器を経験的に比較し、多くの場合において、AC法が他の推定器に勝ることを示すが、異なる推定器の比較品質は、非常にケース依存的である。
関連論文リスト
- The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文 参考訳(メタデータ) (2022-08-25T13:31:09Z) - Usable Region Estimate for Assessing Practical Usability of Medical
Image Segmentation Models [32.56957759180135]
医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。
まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。
次に、予測の正しさと信頼度を同時に定量化するURE(Usable Region Estimate)を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:33:44Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Probabilistic Deep Learning to Quantify Uncertainty in Air Quality
Forecasting [5.007231239800297]
この研究は、空気質予測の現実的な設定における不確実性定量化の最先端技術を適用した。
本稿では,経験的性能,信頼度推定の信頼性,実用性に基づいて,トレーニング確率モデルを記述し,予測の不確実性を評価する。
本実験は,データ駆動空気質予測の不確かさの定量化において,提案モデルが従来よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-12-05T17:01:18Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。