論文の概要: Estimating and Explaining Model Performance When Both Covariates and
Labels Shift
- arxiv url: http://arxiv.org/abs/2209.08436v1
- Date: Sun, 18 Sep 2022 01:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:49:33.091005
- Title: Estimating and Explaining Model Performance When Both Covariates and
Labels Shift
- Title(参考訳): 共変量とラベルシフト時のモデル性能の推定と説明
- Authors: Lingjiao Chen and Matei Zaharia and James Zou
- Abstract要約: 両ラベルの結合シフトといくつかの特徴を考慮した新しい分散シフトモデル Sparse Joint Shift (SJS) を提案する。
また、SJSにおける分散シフトを特徴付けるアルゴリズムフレームワークSEESを提案し、ラベルなしで新しいデータ上でのモデルの性能を推定する。
- 参考スコア(独自算出の注目度): 36.94826820536239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployed machine learning (ML) models often encounter new user data that
differs from their training data. Therefore, estimating how well a given model
might perform on the new data is an important step toward reliable ML
applications. This is very challenging, however, as the data distribution can
change in flexible ways, and we may not have any labels on the new data, which
is often the case in monitoring settings. In this paper, we propose a new
distribution shift model, Sparse Joint Shift (SJS), which considers the joint
shift of both labels and a few features. This unifies and generalizes several
existing shift models including label shift and sparse covariate shift, where
only marginal feature or label distribution shifts are considered. We describe
mathematical conditions under which SJS is identifiable. We further propose
SEES, an algorithmic framework to characterize the distribution shift under SJS
and to estimate a model's performance on new data without any labels. We
conduct extensive experiments on several real-world datasets with various ML
models. Across different datasets and distribution shifts, SEES achieves
significant (up to an order of magnitude) shift estimation error improvements
over existing approaches.
- Abstract(参考訳): デプロイされた機械学習(ML)モデルは、トレーニングデータとは異なる新しいユーザデータに遭遇することが多い。
したがって、与えられたモデルが新しいデータでどれだけうまく機能するかを推定することは、信頼できるMLアプリケーションへの重要なステップである。
しかし、データ分散は柔軟に変化する可能性があり、新しいデータにはラベルがない可能性があるため、これは非常に困難です。
本稿では,両ラベルの結合シフトといくつかの特徴を考慮した分散シフトモデルであるスパース・ジョイント・シフト(SJS)を提案する。
これはラベルシフトやスパース共変量シフトを含むいくつかの既存のシフトモデルを統一し、一般化する。
SJSが同定可能な数学的条件について述べる。
さらに,SJS下での分散シフトを特徴付けるアルゴリズムフレームワークSEESを提案し,ラベルなしで新しいデータ上でのモデルの性能を推定する。
各種MLモデルを用いた実世界のデータセットについて広範な実験を行った。
データセットと分散シフトの相違により、SEESは既存のアプローチよりも大きな(桁違いの)シフト推定誤差の改善を実現している。
関連論文リスト
- Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Explanation Shift: How Did the Distribution Shift Impact the Model? [23.403838118256907]
本研究では,分布変化による説明特性の変化について検討した。
我々は、合成例と実世界のデータセットを用いて、異なる種類の分布シフトを分析する。
我々は、実験を再現するために使用されるコードと同様に、オープンソースのPythonパッケージでメソッドをリリースします。
論文 参考訳(メタデータ) (2023-03-14T17:13:01Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Combat Data Shift in Few-shot Learning with Knowledge Graph [42.59886121530736]
現実世界のアプリケーションでは、少数ショットの学習パラダイムはデータシフトに悩まされることが多い。
既存の少数ショット学習アプローチのほとんどは、データシフトを考慮して設計されていない。
本稿では,タスク固有表現とタスク共有表現を抽出するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-27T12:35:18Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。