論文の概要: Efficient Estimation and Evaluation of Prediction Rules in
Semi-Supervised Settings under Stratified Sampling
- arxiv url: http://arxiv.org/abs/2010.09443v2
- Date: Sat, 25 Sep 2021 13:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:22:05.246417
- Title: Efficient Estimation and Evaluation of Prediction Rules in
Semi-Supervised Settings under Stratified Sampling
- Title(参考訳): 成層サンプリングによる半監督環境における予測規則の効率的な推定と評価
- Authors: Jessica Gronsbell and Molei Liu and Lu Tian and Tianxi Cai
- Abstract要約: 本稿では,2段階の半教師付き学習(SSL)手法を提案する。
ステップIでは、非ランダムサンプリングを考慮した非線形基底関数による重み付き回帰により、欠落ラベルをインプットする。
ステップIIでは、結果の予測器の整合性を確保するために、初期計算を増強する。
- 参考スコア(独自算出の注目度): 6.930951733450623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many contemporary applications, large amounts of unlabeled data are
readily available while labeled examples are limited. There has been
substantial interest in semi-supervised learning (SSL) which aims to leverage
unlabeled data to improve estimation or prediction. However, current SSL
literature focuses primarily on settings where labeled data is selected
randomly from the population of interest. Non-random sampling, while posing
additional analytical challenges, is highly applicable to many real world
problems. Moreover, no SSL methods currently exist for estimating the
prediction performance of a fitted model under non-random sampling. In this
paper, we propose a two-step SSL procedure for evaluating a prediction rule
derived from a working binary regression model based on the Brier score and
overall misclassification rate under stratified sampling. In step I, we impute
the missing labels via weighted regression with nonlinear basis functions to
account for nonrandom sampling and to improve efficiency. In step II, we
augment the initial imputations to ensure the consistency of the resulting
estimators regardless of the specification of the prediction model or the
imputation model. The final estimator is then obtained with the augmented
imputations. We provide asymptotic theory and numerical studies illustrating
that our proposals outperform their supervised counterparts in terms of
efficiency gain. Our methods are motivated by electronic health records (EHR)
research and validated with a real data analysis of an EHR-based study of
diabetic neuropathy.
- Abstract(参考訳): 現代の多くのアプリケーションでは、ラベルのないデータが大量に入手できるが、ラベル付きサンプルは限られている。
半教師付き学習(ssl)は、ラベルなしのデータを利用して推定や予測を改善することを目的としている。
しかし、現在のSSLの文献は、主に関心の人口からランダムにラベル付きデータが選択される設定に焦点を当てている。
非ランダムサンプリングは、さらなる分析的課題を呈する一方で、多くの現実世界の問題に非常に適用可能である。
さらに、非ランダムサンプリング下での適合モデルの予測性能を推定するためのSSLメソッドは存在しない。
本稿では,階層化サンプリングにおけるブライアスコアと全体的な誤分類率に基づいて,作業バイナリ回帰モデルに基づく予測規則を評価するための2段階ssl手法を提案する。
ステップiでは,非ランダムサンプリングを考慮した非線形基底関数を用いた重み付き回帰によって欠落ラベルをインデュートし,効率を向上させる。
ステップIIでは、予測モデルや計算モデルの仕様によらず、結果の予測値の整合性を確保するため、初期計算を増強する。
そして、最終推定器は、拡張計算により得られる。
我々は漸近理論と数値的研究を行い,提案手法が教師付き提案よりも効率の面で優れていることを示した。
本手法はEHR(Electronic Health Record)研究によって動機付けられ,糖尿病性ニューロパチーの実データ解析により検証された。
関連論文リスト
- Semi-supervised Regression Analysis with Model Misspecification and High-dimensional Data [8.619243141968886]
条件付き平均モデルにおける回帰係数を推定するための推論フレームワークを提案する。
提案手法は,正規化推定器を適応度スコア(PS)と結果回帰(OR)モデルの両方に用い,拡張逆確率重み付き(AIPW)法を開発した。
我々の理論的な知見は、広範囲なシミュレーション研究と実世界のデータ応用を通して検証される。
論文 参考訳(メタデータ) (2024-06-20T00:34:54Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Calibrating doubly-robust estimators with unbalanced treatment assignment [0.0]
本稿では、確率スコアモデリングのためのデータをアンサンプするDML推定器の簡単な拡張を提案する。
本論文は, 推定器が推定器の特性を保ち, 校正値が元の分布に一致することを示す理論的結果を提供する。
論文 参考訳(メタデータ) (2024-03-03T18:40:11Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - A comparison of approaches to improve worst-case predictive model
performance over patient subpopulations [14.175321968797252]
患者において平均的に正確な臨床結果の予測モデルは、いくつかのサブ集団に対して劇的に過小評価される可能性がある。
サブポピュレーションに対する解離および最悪の性能を一貫して改善するモデル開発と選択のアプローチを同定する。
本研究は, 比較的少数の例外を除いて, 標準学習法よりも, 患者サブポピュレーションに対するアプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2021-08-27T13:10:00Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Surrogate Assisted Semi-supervised Inference for High Dimensional Risk
Prediction [3.10560974227074]
高次元予測器を用いたリスクモデリングのためのSAS(Surrogate Assisted Semi-supervised- Learning)アプローチを開発しています。
SAS法が高次元作業モデルに起因する予測リスクに対して有効な推論を提供することを実証する。
論文 参考訳(メタデータ) (2021-05-04T03:08:51Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Semi-Supervised Empirical Risk Minimization: Using unlabeled data to
improve prediction [4.860671253873579]
本稿では,経験的リスク最小化(Empirical Risk Minimization,ERM)学習プロセスの半教師付き学習(SSL)変種を設計するためにラベルのないデータを使用する一般的な手法を提案する。
我々は、予測性能の向上におけるSSLアプローチの有効性を分析した。
論文 参考訳(メタデータ) (2020-09-01T17:55:51Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。