論文の概要: Tracking the risk of a deployed model and detecting harmful distribution
shifts
- arxiv url: http://arxiv.org/abs/2110.06177v1
- Date: Tue, 12 Oct 2021 17:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:11:29.659306
- Title: Tracking the risk of a deployed model and detecting harmful distribution
shifts
- Title(参考訳): デプロイされたモデルのリスクを追跡し、有害な分布シフトを検出する
- Authors: Aleksandr Podkopaev, Aaditya Ramdas
- Abstract要約: 実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
- 参考スコア(独自算出の注目度): 105.27463615756733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When deployed in the real world, machine learning models inevitably encounter
changes in the data distribution, and certain -- but not all -- distribution
shifts could result in significant performance degradation. In practice, it may
make sense to ignore benign shifts, under which the performance of a deployed
model does not degrade substantially, making interventions by a human expert
(or model retraining) unnecessary. While several works have developed tests for
distribution shifts, these typically either use non-sequential methods, or
detect arbitrary shifts (benign or harmful), or both. We argue that a sensible
method for firing off a warning has to both (a) detect harmful shifts while
ignoring benign ones, and (b) allow continuous monitoring of model performance
without increasing the false alarm rate. In this work, we design simple
sequential tools for testing if the difference between source (training) and
target (test) distributions leads to a significant drop in a risk function of
interest, like accuracy or calibration. Recent advances in constructing
time-uniform confidence sequences allow efficient aggregation of statistical
evidence accumulated during the tracking process. The designed framework is
applicable in settings where (some) true labels are revealed after the
prediction is performed, or when batches of labels become available in a
delayed fashion. We demonstrate the efficacy of the proposed framework through
an extensive empirical study on a collection of simulated and real datasets.
- Abstract(参考訳): 現実世界にデプロイされた場合、機械学習モデルはデータ分散の変化に必然的に遭遇し、特定の - すべてではないが - 分散シフトによってパフォーマンスが大幅に低下する可能性がある。
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視して、人間の専門家(またはモデル再訓練)による介入を不要にすることは理にかなっている。
いくつかの研究で分散シフトのテストが開発されているが、通常は非逐次的な方法を使うか、任意のシフト(良性や有害性)を検出するか、両方である。
我々は、警告を発射するための賢明な方法が両方あると論じる。
(a)良心を無視しながら有害な変化を検知し、
(b)誤報率を増大させることなくモデル性能の連続監視を可能にする。
本研究では、ソース(トレーニング)とターゲット(テスト)の分布の違いが、精度やキャリブレーションといった利害関係のリスク関数を著しく低下させるかどうかをテストするための単純なシーケンシャルツールを設計する。
時間一様信頼系列の構築における最近の進歩は、追跡過程中に蓄積された統計証拠の効率的な集約を可能にする。
設計されたフレームワークは、予測が実行された後に(一部)真のラベルが明らかにされたり、遅延した方法でラベルのバッチが利用可能になった場合に適用できる。
提案手法の有効性を,シミュレーションおよび実データセットの収集に関する広範な実証的研究を通じて実証する。
関連論文リスト
- A Learning Based Hypothesis Test for Harmful Covariate Shift [3.1406146587437904]
リスクの高いドメインの機械学習システムは、アウト・オブ・ディストリビューションテストの例で予測をすべきでないことを特定する必要がある。
本研究では、トレーニングデータに同意し、テストデータに同意するように訓練された分類器のアンサンブル間の不一致を利用して、モデルがデプロイ設定から削除されるかどうかを判断する。
論文 参考訳(メタデータ) (2022-12-06T04:15:24Z) - Online Distribution Shift Detection via Recency Prediction [43.84609690251748]
偽陽性率を保証した分布変化をオンラインで検出する手法を提案する。
我々のシステムは(確率$epsilon$で)分布シフトがない場合、誤った警告を発行する可能性は極めて低い。
従来の作業に比べて、現実的なロボティクス設定の最大11倍高速な検出を経験的に達成している。
論文 参考訳(メタデータ) (2022-11-17T22:29:58Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Monitoring Model Deterioration with Explainable Uncertainty Estimation
via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。
ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。
本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文 参考訳(メタデータ) (2022-01-27T17:23:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。