論文の概要: Evaluating Model Robustness and Stability to Dataset Shift
- arxiv url: http://arxiv.org/abs/2010.15100v2
- Date: Mon, 15 Mar 2021 16:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 04:54:09.670885
- Title: Evaluating Model Robustness and Stability to Dataset Shift
- Title(参考訳): モデルロバスト性の評価とデータセットシフトの安定性
- Authors: Adarsh Subbaswamy, Roy Adams, Suchi Saria
- Abstract要約: 機械学習モデルの安定性を解析するためのフレームワークを提案する。
本手法では,アルゴリズムが性能の悪い分布を決定するために,元の評価データを用いる。
我々は,アルゴリズムの性能を"Worst-case"分布で推定する。
- 参考スコア(独自算出の注目度): 7.369475193451259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the use of machine learning in high impact domains becomes widespread, the
importance of evaluating safety has increased. An important aspect of this is
evaluating how robust a model is to changes in setting or population, which
typically requires applying the model to multiple, independent datasets. Since
the cost of collecting such datasets is often prohibitive, in this paper, we
propose a framework for analyzing this type of stability using the available
data. We use the original evaluation data to determine distributions under
which the algorithm performs poorly, and estimate the algorithm's performance
on the "worst-case" distribution. We consider shifts in user defined
conditional distributions, allowing some distributions to shift while keeping
other portions of the data distribution fixed. For example, in a healthcare
context, this allows us to consider shifts in clinical practice while keeping
the patient population fixed. To address the challenges associated with
estimation in complex, high-dimensional distributions, we derive a "debiased"
estimator which maintains $\sqrt{N}$-consistency even when machine learning
methods with slower convergence rates are used to estimate the nuisance
parameters. In experiments on a real medical risk prediction task, we show this
estimator can be used to analyze stability and accounts for realistic shifts
that could not previously be expressed. The proposed framework allows
practitioners to proactively evaluate the safety of their models without
requiring additional data collection.
- Abstract(参考訳): 高影響領域での機械学習の利用が広まるにつれて、安全性の評価の重要性が高まっている。
この重要な側面は、モデルが設定や人口の変化に対してどの程度堅牢であるかを評価することである。
このようなデータセットの収集コストは、しばしば禁止されるため、本稿では、利用可能なデータを用いて、この種の安定性を分析するためのフレームワークを提案する。
アルゴリズムの性能の悪い分布を判断するために元の評価データを使用し, "worst-case" 分布におけるアルゴリズムの性能を推定する。
ユーザ定義条件分布のシフトを考慮し、データ分布の他の部分を固定しながら、一部の分布をシフトさせることができる。
例えば、医療の文脈では、患者人口を固定しながら臨床実践の変化を検討することができる。
複雑な高次元分布における推定に伴う課題に対処するために,収束率の遅い機械学習手法を用いてニュアンスパラメータを推定した場合においても,$\sqrt{N}$-consistencyを維持する「偏り」推定器を導出する。
実際の医療リスク予測タスクの実験では、この推定器を用いて、これまで表現できなかった現実的なシフトの安定性と説明を行うことができる。
提案フレームワークでは,データ収集を必要とせず,積極的にモデルの安全性を評価することができる。
関連論文リスト
- Evidential time-to-event prediction model with well-calibrated uncertainty estimation [12.446406577462069]
本稿では,特に時間-時間予測タスクのために設計された明らかな回帰モデルを提案する。
最も確実な事象時間は、集約されたガウスランダムファジィ数(GRFN)によって直接定量化される
我々のモデルは精度と信頼性の両方を達成し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:04Z) - How Reliable is Your Regression Model's Uncertainty Under Real-World
Distribution Shifts? [46.05502630457458]
本研究では,異なるタイプの分散シフトを伴う8つの画像ベース回帰データセットのベンチマークを提案する。
分散シフトがない場合、メソッドは十分に校正されているが、ベンチマークデータセットの多くに非常に自信が持たれていることが分かっています。
論文 参考訳(メタデータ) (2023-02-07T18:54:39Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。