論文の概要: Binary Quantification and Dataset Shift: An Experimental Investigation
- arxiv url: http://arxiv.org/abs/2310.04565v1
- Date: Fri, 6 Oct 2023 20:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:39:26.962271
- Title: Binary Quantification and Dataset Shift: An Experimental Investigation
- Title(参考訳): バイナリ量子化とデータセットシフト:実験的検討
- Authors: Pablo Gonz\'alez and Alejandro Moreo and Fabrizio Sebastiani
- Abstract要約: 量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
- 参考スコア(独自算出の注目度): 54.14283123210872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantification is the supervised learning task that consists of training
predictors of the class prevalence values of sets of unlabelled data, and is of
special interest when the labelled data on which the predictor has been trained
and the unlabelled data are not IID, i.e., suffer from dataset shift. To date,
quantification methods have mostly been tested only on a special case of
dataset shift, i.e., prior probability shift; the relationship between
quantification and other types of dataset shift remains, by and large,
unexplored. In this work we carry out an experimental analysis of how current
quantification algorithms behave under different types of dataset shift, in
order to identify limitations of current approaches and hopefully pave the way
for the development of more broadly applicable methods. We do this by proposing
a fine-grained taxonomy of types of dataset shift, by establishing protocols
for the generation of datasets affected by these types of shift, and by testing
existing quantification methods on the datasets thus generated. One finding
that results from this investigation is that many existing quantification
methods that had been found robust to prior probability shift are not
necessarily robust to other types of dataset shift. A second finding is that no
existing quantification method seems to be robust enough to dealing with all
the types of dataset shift we simulate in our experiments. The code needed to
reproduce all our experiments is publicly available at
https://github.com/pglez82/quant_datasetshift.
- Abstract(参考訳): 定量化とは、教師付き学習タスクであり、教師なしデータの集合のクラス有病率の予測子で構成され、予測子を訓練したラベル付きデータとラベルなしデータとがiidではない場合、すなわちデータセットシフトに苦しむ場合、特に興味を持つ。
これまで、量子化法は、データセットシフト(すなわち、前の確率シフト)の特別な場合のみでテストされてきた。
本研究では,現行手法の限界を特定し,より広く適用可能な手法の開発への道筋を拓くため,異なる種類のデータセットシフトの下で現在の定量化アルゴリズムがどのように振る舞うかを実験的に解析する。
我々は、データセットシフトの種類をきめ細かい分類法を提案し、このようなシフトに影響を受けるデータセットを生成するためのプロトコルを確立し、それによって生成されたデータセットの既存の定量化方法をテストする。
この研究から得られた1つの発見は、以前の確率シフトでロバストであることが判明した既存の多くの定量化手法が、必ずしも他の種類のデータセットシフトにロバストではないことである。
2つ目の発見は、我々が実験でシミュレートしたすべてのタイプのデータセットシフトを処理するのに十分な堅牢性を持つ、既存の定量化方法がないことです。
すべての実験を再現するために必要なコードは、https://github.com/pglez82/quant_datasetshiftで公開されています。
関連論文リスト
- Automatic dataset shift identification to support root cause analysis of AI performance drift [13.996602963045387]
データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
本稿では,最初の教師なしデータセットシフト識別フレームワークを提案する。
提案フレームワークの5種類の実世界のデータセットシフトに関する有望な結果を報告する。
論文 参考訳(メタデータ) (2024-11-12T17:09:20Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - Shifts: A Dataset of Real Distributional Shift Across Multiple
Large-Scale Tasks [44.61070965407907]
現場の現状を考えると、分散シフトの影響を受け、様々なモードのタスクの標準化された大規模データセットが必要である。
本研究では,不確実性推定と分布シフトに対するロバスト性評価のためのemphShiftsデータセットを提案する。
論文 参考訳(メタデータ) (2021-07-15T16:59:34Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Robust Classification under Class-Dependent Domain Shift [29.54336432319199]
本稿では,クラス依存ドメインシフト(class-dependent domain shift)と呼ぶ,特別なタイプのデータセットシフトについて検討する。
入力データはラベルに依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトはない。
論文 参考訳(メタデータ) (2020-07-10T12:26:57Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。