論文の概要: Is this model reliable for everyone? Testing for strong calibration
- arxiv url: http://arxiv.org/abs/2307.15247v1
- Date: Fri, 28 Jul 2023 00:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:03:16.813527
- Title: Is this model reliable for everyone? Testing for strong calibration
- Title(参考訳): このモデルはみんなに信頼できるのですか。
強い校正のためのテスト
- Authors: Jean Feng, Alexej Gossmann, Romain Pirracchio, Nicholas Petrick, Gene
Pennello, Berkman Sahiner
- Abstract要約: 十分に校正されたリスク予測モデルでは、平均予測確率は任意のサブグループの真の事象率に近い。
強いキャリブレーションのためのモデル監査のタスクは、潜在的な部分群の数が多すぎるため、難しいことが知られている。
適合性試験の最近の進歩は潜在的な解決策を提供するが、弱い信号を持つ設定には設計されていない。
- 参考スコア(独自算出の注目度): 4.893345190925178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a well-calibrated risk prediction model, the average predicted probability
is close to the true event rate for any given subgroup. Such models are
reliable across heterogeneous populations and satisfy strong notions of
algorithmic fairness. However, the task of auditing a model for strong
calibration is well-known to be difficult -- particularly for machine learning
(ML) algorithms -- due to the sheer number of potential subgroups. As such,
common practice is to only assess calibration with respect to a few predefined
subgroups. Recent developments in goodness-of-fit testing offer potential
solutions but are not designed for settings with weak signal or where the
poorly calibrated subgroup is small, as they either overly subdivide the data
or fail to divide the data at all. We introduce a new testing procedure based
on the following insight: if we can reorder observations by their expected
residuals, there should be a change in the association between the predicted
and observed residuals along this sequence if a poorly calibrated subgroup
exists. This lets us reframe the problem of calibration testing into one of
changepoint detection, for which powerful methods already exist. We begin with
introducing a sample-splitting procedure where a portion of the data is used to
train a suite of candidate models for predicting the residual, and the
remaining data are used to perform a score-based cumulative sum (CUSUM) test.
To further improve power, we then extend this adaptive CUSUM test to
incorporate cross-validation, while maintaining Type I error control under
minimal assumptions. Compared to existing methods, the proposed procedure
consistently achieved higher power in simulation studies and more than doubled
the power when auditing a mortality risk prediction model.
- Abstract(参考訳): well-calibrated risk prediction model では、平均予測確率は任意の部分群に対する真の事象率に近い。
このようなモデルは異種集団にわたって信頼性があり、アルゴリズム的公正性の強い概念を満たす。
しかし、強力なキャリブレーションのためのモデル監査のタスクは、潜在的なサブグループの数が多すぎるため、特に機械学習(ML)アルゴリズムでは難しいことが知られている。
そのため、事前定義された部分群に対してのみキャリブレーションを評価することが一般的である。
適合度テスト(goodness-of-fit testing)の最近の開発は、潜在的な解決策を提供するが、弱い信号を持つ設定や、不調整のサブグループが小さい設定のために設計されていない。
予測された残差によって観測を並べ替えることができれば、この系列に沿って予測された残差と観測された残差の間には、調整が不十分な部分群が存在する場合の変化があるはずである。
これにより、キャリブレーションテストの問題を、すでに強力なメソッドが存在するチェンジポイント検出の1つに再構成することができます。
まず,残差予測のための候補モデルの組をトレーニングするためにデータの一部を使用し,残りのデータをスコアベース累積和(cusum)テストに使用するサンプル分割手順を導入する。
パワーをさらに向上するため、我々はこの適応型CUSUMテストを拡張し、最小限の仮定でType Iエラー制御を維持しながら、クロスバリデーションを組み込む。
従来の手法と比較すると,提案手法はシミュレーション研究において一貫して高いパワーを達成し,死亡リスク予測モデルの監査時に2倍以上のパワーを得た。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Domain-adaptive and Subgroup-specific Cascaded Temperature Regression
for Out-of-distribution Calibration [16.930766717110053]
本稿では, メタセットをベースとした新しい温度回帰法を提案し, ポストホックキャリブレーション法を提案する。
予測されたカテゴリと信頼度に基づいて,各メタセットをサブグループに分割し,多様な不確実性を捉える。
回帰ネットワークは、カテゴリ特化および信頼レベル特化スケーリングを導出し、メタセット間のキャリブレーションを達成するように訓練される。
論文 参考訳(メタデータ) (2024-02-14T14:35:57Z) - Calibration tests beyond classification [30.616624345970973]
ほとんどの教師付き機械学習タスクは、既約予測エラーを被る。
確率論的予測モデルは、妥当な目標に対する信念を表す確率分布を提供することによって、この制限に対処する。
校正されたモデルは、予測が過信でも過信でもないことを保証します。
論文 参考訳(メタデータ) (2022-10-21T09:49:57Z) - Fair admission risk prediction with proportional multicalibration [0.16249424686052708]
マルチキャリブレーション制約は、柔軟に定義されたサブポピュレーション間のキャリブレーション誤差を補正する。
意思決定者は特定のグループに対するモデル予測を信頼するか、不信にするかを学ぶことができる。
本稿では,グループ間および予測ビン内における正の校正誤差を制限する基準である比例多重校正を提案する。
論文 参考訳(メタデータ) (2022-09-29T08:15:29Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。