論文の概要: A unified framework for dataset shift diagnostics
- arxiv url: http://arxiv.org/abs/2205.08340v4
- Date: Tue, 12 Sep 2023 23:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 18:54:37.408325
- Title: A unified framework for dataset shift diagnostics
- Title(参考訳): データセットシフト診断のための統一フレームワーク
- Authors: Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan
Pablo Ibieta-Jimenez, Renato Vicente
- Abstract要約: 教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.449909275410288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised learning techniques typically assume training data originates from
the target population. Yet, in reality, dataset shift frequently arises, which,
if not adequately taken into account, may decrease the performance of their
predictors. In this work, we propose a novel and flexible framework called
DetectShift that quantifies and tests for multiple dataset shifts, encompassing
shifts in the distributions of $(X, Y)$, $X$, $Y$, $X|Y$, and $Y|X$.
DetectShift equips practitioners with insights into data shifts, facilitating
the adaptation or retraining of predictors using both source and target data.
This proves extremely valuable when labeled samples in the target domain are
limited. The framework utilizes test statistics with the same nature to
quantify the magnitude of the various shifts, making results more
interpretable. It is versatile, suitable for regression and classification
tasks, and accommodates diverse data forms - tabular, text, or image.
Experimental results demonstrate the effectiveness of DetectShift in detecting
dataset shifts even in higher dimensions.
- Abstract(参考訳): 教師付き学習技術は、通常、訓練データがターゲット人口に由来すると仮定する。
しかし、実際にはデータセットのシフトが頻繁に発生し、適切に考慮しなければ予測器の性能が低下する可能性がある。
本研究では,複数のデータセットのシフトの定量化とテストを行い,y$,y$,$y$,$x|y$,$y|x$,$y|x$の分布の変化を包含する,新しい柔軟なフレームワークである detectionshift を提案する。
DetectShiftは実践者にデータシフトに関する洞察を与え、ソースデータとターゲットデータの両方を使用して予測者の適応や再トレーニングを容易にする。
これは、ターゲット領域のラベル付きサンプルが制限されている場合に非常に価値がある。
このフレームワークは同じ性質でテスト統計を利用し、様々なシフトの大きさを定量化し、その結果をより解釈可能である。
汎用的で、回帰処理や分類処理に適しており、表やテキスト、イメージなど、さまざまなデータ形式に対応している。
実験結果は,高次元においてもデータセットシフト検出における検出シフトの有効性を示す。
関連論文リスト
- Automatic dataset shift identification to support root cause analysis of AI performance drift [13.996602963045387]
データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
本稿では,最初の教師なしデータセットシフト識別フレームワークを提案する。
提案フレームワークの5種類の実世界のデータセットシフトに関する有望な結果を報告する。
論文 参考訳(メタデータ) (2024-11-12T17:09:20Z) - Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift [22.708984813519155]
種々のデータセットシフト条件下で,ターゲット個体群リスクを効率的に推定する一般的な問題について検討する。
我々は, 簡易な仕様テストとともに, 効率的で頑健な推定器を開発する。
また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率バウンダリを導出する。
論文 参考訳(メタデータ) (2023-06-28T17:54:18Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Robust Classification under Class-Dependent Domain Shift [29.54336432319199]
本稿では,クラス依存ドメインシフト(class-dependent domain shift)と呼ぶ,特別なタイプのデータセットシフトについて検討する。
入力データはラベルに依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトはない。
論文 参考訳(メタデータ) (2020-07-10T12:26:57Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。