論文の概要: Automatically detecting data drift in machine learning classifiers
- arxiv url: http://arxiv.org/abs/2111.05672v1
- Date: Wed, 10 Nov 2021 12:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 17:44:15.029205
- Title: Automatically detecting data drift in machine learning classifiers
- Title(参考訳): 機械学習分類器におけるデータドリフトの自動検出
- Authors: Samuel Ackerman, Orna Raz, Marcel Zalmanovici, Aviad Zlotnick
- Abstract要約: 機械学習のパフォーマンスデータドリフト」や「ドリフト」に影響を及ぼす変化を言う。
提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。
- 参考スコア(独自算出の注目度): 2.202253618096515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifiers and other statistics-based machine learning (ML) techniques
generalize, or learn, based on various statistical properties of the training
data. The assumption underlying statistical ML resulting in theoretical or
empirical performance guarantees is that the distribution of the training data
is representative of the production data distribution. This assumption often
breaks; for instance, statistical distributions of the data may change. We term
changes that affect ML performance `data drift' or `drift'.
Many classification techniques compute a measure of confidence in their
results. This measure might not reflect the actual ML performance. A famous
example is the Panda picture that is correctly classified as such with a
confidence of about 60\%, but when noise is added it is incorrectly classified
as a Gibbon with a confidence of above 99\%. However, the work we report on
here suggests that a classifier's measure of confidence can be used for the
purpose of detecting data drift.
We propose an approach based solely on classifier suggested labels and its
confidence in them, for alerting on data distribution or feature space changes
that are likely to cause data drift. Our approach identities degradation in
model performance and does not require labeling of data in production which is
often lacking or delayed. Our experiments with three different data sets and
classifiers demonstrate the effectiveness of this approach in detecting data
drift. This is especially encouraging as the classification itself may or may
not be correct and no model input data is required. We further explore the
statistical approach of sequential change-point tests to automatically
determine the amount of data needed in order to identify drift while
controlling the false positive rate (Type-1 error).
- Abstract(参考訳): 分類器やその他の統計に基づく機械学習(ML)技術は、トレーニングデータの様々な統計特性に基づいて一般化または学習する。
理論的あるいは実証的な性能保証をもたらす統計的MLの基礎となる前提は、トレーニングデータの分布が生産データ分布を表すことである。
この仮定はしばしば破られ、例えばデータの統計分布が変化する。
MLのパフォーマンス「データドリフト」や「ドリフト」に影響を与える変化を言う。
多くの分類技術は、結果に対する信頼度を測定する。
この尺度は実際のMLのパフォーマンスを反映していないかもしれない。
有名な例として、約60\%の信頼度で正しく分類されているパンダ画像があるが、ノイズが付加されると、99\%以上の信頼度を持つギボンに誤って分類される。
しかし,本報告では,データのドリフトを検出するために分類器の信頼度を計測できることを示唆している。
提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。
当社のアプローチは、モデル性能の低下を招き、しばしば不足または遅延する本番環境でのデータラベリングを必要としない。
3つの異なるデータセットと分類器を用いた実験により,この手法がデータドリフト検出に有効であることを示した。
これは特に、分類自体が正しいかもしれないし、正しいかもしれないし、モデル入力データを必要としないため奨励される。
偽陽性率(type-1エラー)を制御しながらドリフトを識別するために必要なデータ量を自動的に決定するために,逐次変化点テストの統計的アプローチをさらに検討する。
関連論文リスト
- CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Robustness to Spurious Correlations in Text Classification via
Automatically Generated Counterfactuals [8.827892752465958]
自動生成された反実データを用いてトレーニングデータを増強し、堅牢なテキスト分類器のトレーニングを提案する。
因果的特徴を強調し,非因果的特徴を強調することで,ロバスト分類器は有意義で信頼性の高い予測を行うことを示す。
論文 参考訳(メタデータ) (2020-12-18T03:57:32Z) - Detection of data drift and outliers affecting machine learning model
performance over time [5.319802998033767]
ドリフトはトレーニングとデプロイメントデータ間の分散変更である。
これらの変更を検出したいのですが、デプロイメントデータラベルなしでは正確さを計測できません。
代わりに、変更に対するモデル予測の信頼性の分布を非パラメトリックにテストすることで間接的にドリフトを検出する。
論文 参考訳(メタデータ) (2020-12-16T20:50:12Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。