論文の概要: A unified framework for dataset shift diagnostics
- arxiv url: http://arxiv.org/abs/2205.08340v3
- Date: Fri, 12 May 2023 02:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 16:29:57.601964
- Title: A unified framework for dataset shift diagnostics
- Title(参考訳): データセットシフト診断のための統一フレームワーク
- Authors: Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan
Pablo Ibieta-Jimenez, Renato Vicente
- Abstract要約: 我々はTectShiftと呼ばれる新しいフレキシブルなフレームワークを提案する。
さまざまなタイプのデータセットシフトの定量化とテストを可能にする。
DetectShiftの実装はhttps://github.com/felipemaiapolo/detectshiftで確認できます。
- 参考スコア(独自算出の注目度): 2.58115441516441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most supervised learning methods assume that the data used in the training
phase comes from the target population. However, in practice, one often faces
dataset shift, which, if not adequately taken into account, may decrease the
performance of their predictors. In this work, we propose a novel and flexible
framework called DetectShift that enables quantification and testing of various
types of dataset shifts, including shifts in the distributions of $(X, Y)$,
$X$, $Y$, $X|Y$, and $Y|X$. DetectShift provides practitioners with insights
about changes in their data, allowing them to leverage source and target data
to retrain or adapt their predictors. That is particularly valuable in
scenarios where labeled samples from the target domain are scarce. The
framework utilizes test statistics with the same nature to quantify the
magnitude of the various shifts, making results more interpretable. Moreover,
it can be applied in both regression and classification tasks, as well as to
different types of data such as tabular, text, and image data. Experimental
results demonstrate the effectiveness of DetectShift in detecting dataset
shifts even in higher dimensions. Our implementation for DetectShift can be
found in https://github.com/felipemaiapolo/detectshift.
- Abstract(参考訳): 多くの教師付き学習手法では、訓練段階で使用されるデータは対象集団に由来すると仮定している。
しかし実際には、適切に考慮しなければ予測器の性能を低下させるようなデータセットシフトに直面していることが多い。
本研究では,様々な種類のデータセットシフトの定量化とテストを可能にする,新しい柔軟なフレームワークである detectionshift を提案し,その内容は$(x,y)$,$x$,$y$,$x|y$,$y|x$ の分布の変化を含む。
detectionshiftは、データの変更に関する洞察を実践者に提供し、ソースとターゲットのデータを活用して、予測器の再トレーニングや適応を可能にする。
これは、ターゲットドメインからのラベル付きサンプルが不足しているシナリオで特に有用です。
このフレームワークは同じ性質でテスト統計を利用し、様々なシフトの大きさを定量化し、その結果をより解釈可能である。
さらに、回帰タスクと分類タスクの両方に適用できるだけでなく、表やテキスト、画像データなど、さまざまなタイプのデータにも適用することができる。
実験結果は,高次元においてもデータセットシフト検出における検出シフトの有効性を示す。
DetectShiftの実装はhttps://github.com/felipemaiapolo/detectshiftで確認できます。
関連論文リスト
- Automatic dataset shift identification to support root cause analysis of AI performance drift [13.996602963045387]
データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
本稿では,最初の教師なしデータセットシフト識別フレームワークを提案する。
提案フレームワークの5種類の実世界のデータセットシフトに関する有望な結果を報告する。
論文 参考訳(メタデータ) (2024-11-12T17:09:20Z) - Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift [22.708984813519155]
種々のデータセットシフト条件下で,ターゲット個体群リスクを効率的に推定する一般的な問題について検討する。
我々は, 簡易な仕様テストとともに, 効率的で頑健な推定器を開発する。
また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率バウンダリを導出する。
論文 参考訳(メタデータ) (2023-06-28T17:54:18Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Robust Classification under Class-Dependent Domain Shift [29.54336432319199]
本稿では,クラス依存ドメインシフト(class-dependent domain shift)と呼ぶ,特別なタイプのデータセットシフトについて検討する。
入力データはラベルに依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトはない。
論文 参考訳(メタデータ) (2020-07-10T12:26:57Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。