論文の概要: Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift
- arxiv url: http://arxiv.org/abs/2306.16406v4
- Date: Sat, 8 Jun 2024 02:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:29:05.314990
- Title: Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift
- Title(参考訳): データセットシフトの一般形に基づく効率的かつ多元的ロバストリスク推定
- Authors: Hongxiang Qiu, Eric Tchetgen Tchetgen, Edgar Dobriban,
- Abstract要約: 種々のデータセットシフト条件下で,ターゲット個体群リスクを効率的に推定する一般的な問題について検討する。
我々は, 簡易な仕様テストとともに, 効率的で頑健な推定器を開発する。
また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率バウンダリを導出する。
- 参考スコア(独自算出の注目度): 22.708984813519155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical machine learning methods often face the challenge of limited data available from the population of interest. One remedy is to leverage data from auxiliary source populations, which share some conditional distributions or are linked in other ways with the target domain. Techniques leveraging such \emph{dataset shift} conditions are known as \emph{domain adaptation} or \emph{transfer learning}. Despite extensive literature on dataset shift, limited works address how to efficiently use the auxiliary populations to improve the accuracy of risk evaluation for a given machine learning task in the target population. In this paper, we study the general problem of efficiently estimating target population risk under various dataset shift conditions, leveraging semiparametric efficiency theory. We consider a general class of dataset shift conditions, which includes three popular conditions -- covariate, label and concept shift -- as special cases. We allow for partially non-overlapping support between the source and target populations. We develop efficient and multiply robust estimators along with a straightforward specification test of these dataset shift conditions. We also derive efficiency bounds for two other dataset shift conditions, posterior drift and location-scale shift. Simulation studies support the efficiency gains due to leveraging plausible dataset shift conditions.
- Abstract(参考訳): 統計的機械学習の手法は、興味のある人々から利用可能な限られたデータの難しさに直面することが多い。
1つの治療法は、いくつかの条件分布を共有したり、ターゲットドメインと他の方法でリンクされた補助源集団のデータを活用することである。
このようなemph{dataset shift}条件を活用する技術は、emph{domain adapt} または \emph{transfer learning} として知られている。
データセットのシフトに関する広範な文献にもかかわらず、限定的な研究は、対象人口における与えられた機械学習タスクのリスク評価の正確性を改善するために補助人口を効率的に利用する方法に言及している。
本稿では, 半パラメトリック効率理論を応用して, 種々のデータセットシフト条件下でのターゲット集団リスクを効率的に推定する一般的な問題について検討する。
我々は,共変量,ラベル,概念シフトの3つの一般的な条件を含む,データセットシフト条件の一般的なクラスを特別なケースとして検討する。
我々は、ソースとターゲットの人口の間に部分的にはオーバーラップしないサポートを許す。
我々はこれらのデータセットシフト条件の簡単な仕様テストとともに、効率的でマルチプライスなロバストな推定器を開発する。
また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率バウンダリを導出する。
シミュレーション研究は、妥当なデータセットシフト条件の活用による効率向上を支援する。
関連論文リスト
- Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Adapting to Latent Subgroup Shifts via Concepts and Proxies [82.01141290360562]
最適ターゲット予測器は、ソースドメインでのみ利用できる概念とプロキシ変数の助けを借りて、非パラメトリックに識別可能であることを示す。
本研究では,データ生成プロセスに特有の潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T18:30:22Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - Towards Backwards-Compatible Data with Confounded Domain Adaptation [0.0]
一般化ラベルシフト(GLS)を変更することで、汎用データの後方互換性を実現する。
本稿では,ソースとターゲット条件分布のばらつきを最小限に抑えた新しい枠組みを提案する。
ガウス逆Kulback-Leibler分散と最大平均誤差を用いた具体的実装を提供する。
論文 参考訳(メタデータ) (2022-03-23T20:53:55Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Model Robustness and Stability to Dataset Shift [7.369475193451259]
機械学習モデルの安定性を解析するためのフレームワークを提案する。
本手法では,アルゴリズムが性能の悪い分布を決定するために,元の評価データを用いる。
我々は,アルゴリズムの性能を"Worst-case"分布で推定する。
論文 参考訳(メタデータ) (2020-10-28T17:35:39Z) - Robust Fairness under Covariate Shift [11.151913007808927]
保護グループメンバーシップに関して公正な予測を行うことは、分類アルゴリズムの重要な要件となっている。
本稿では,ターゲット性能の面で最悪のケースに対して頑健な予測値を求める手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T04:42:01Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。