論文の概要: A unified framework for dataset shift diagnostics
- arxiv url: http://arxiv.org/abs/2205.08340v1
- Date: Tue, 17 May 2022 13:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 12:56:40.922869
- Title: A unified framework for dataset shift diagnostics
- Title(参考訳): データセットシフト診断のための統一フレームワーク
- Authors: Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan
Pablo Ibieta-Jimenez, Renato Vicente
- Abstract要約: シフトを検出する現在の方法は、特定のタイプのシフトを検出するためにのみ設計されているか、またはその存在を正式にテストすることができない。
我々は,異なるタイプのシフトの存在を検出することによって,予測方法を改善する方法に関する洞察を提供する,一般的なフレームワークを紹介する。
私たちのフレームワークは、任意のデータ型(タブラリ/イメージ/テキスト)と、分類と回帰の両方に使用できます。
- 参考スコア(独自算出の注目度): 2.58115441516441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most machine learning (ML) methods assume that the data used in the training
phase comes from the distribution of the target population. However, in
practice one often faces dataset shift, which, if not properly taken into
account, may decrease the predictive performance of the ML models. In general,
if the practitioner knows which type of shift is taking place - e.g., covariate
shift or label shift - they may apply transfer learning methods to obtain
better predictions. Unfortunately, current methods for detecting shift are only
designed to detect specific types of shift or cannot formally test their
presence. We introduce a general framework that gives insights on how to
improve prediction methods by detecting the presence of different types of
shift and quantifying how strong they are. Our approach can be used for any
data type (tabular/image/text) and both for classification and regression
tasks. Moreover, it uses formal hypotheses tests that controls false alarms. We
illustrate how our framework is useful in practice using both artificial and
real datasets. Our package for dataset shift detection can be found in
https://github.com/felipemaiapolo/detectshift.
- Abstract(参考訳): ほとんどの機械学習(ML)手法は、トレーニングフェーズで使用されるデータはターゲット人口の分布に由来すると仮定する。
しかし、実際にはしばしばデータセットシフトに直面し、適切に考慮しなければ、MLモデルの予測性能が低下する可能性がある。
一般に、実践者がどの種類のシフト(例えば共変量シフトやラベルシフト)が起こっているかを知っている場合、より優れた予測を得るために転送学習法を適用することがある。
残念なことに、現在のシフト検出方法は特定のタイプのシフトを検出するためにのみ設計されているか、その存在を正式にテストできない。
我々は,様々な種類のシフトの存在を検知し,その強さを定量化することにより,予測手法を改善するための洞察を与える汎用フレームワークを提案する。
このアプローチは、任意のデータ型(表/画像/テキスト)と分類と回帰タスクの両方に使用できる。
さらに、偽アラームを制御する公式な仮説テストを使用する。
私たちのフレームワークは、人工データセットと実際のデータセットの両方を使って、実際にどのように役立つかを説明します。
データセットシフト検出のパッケージは、https://github.com/felipemaiapolo/detectshift.comで確認できます。
関連論文リスト
- Automatic dataset shift identification to support root cause analysis of AI performance drift [13.996602963045387]
データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
本稿では,最初の教師なしデータセットシフト識別フレームワークを提案する。
提案フレームワークの5種類の実世界のデータセットシフトに関する有望な結果を報告する。
論文 参考訳(メタデータ) (2024-11-12T17:09:20Z) - Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift [22.708984813519155]
種々のデータセットシフト条件下で,ターゲット個体群リスクを効率的に推定する一般的な問題について検討する。
我々は, 簡易な仕様テストとともに, 効率的で頑健な推定器を開発する。
また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率バウンダリを導出する。
論文 参考訳(メタデータ) (2023-06-28T17:54:18Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Robust Classification under Class-Dependent Domain Shift [29.54336432319199]
本稿では,クラス依存ドメインシフト(class-dependent domain shift)と呼ぶ,特別なタイプのデータセットシフトについて検討する。
入力データはラベルに依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトはない。
論文 参考訳(メタデータ) (2020-07-10T12:26:57Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。