論文の概要: Efficient Estimation and Evaluation of Prediction Rules in
Semi-Supervised Settings under Stratified Sampling
- arxiv url: http://arxiv.org/abs/2010.09443v2
- Date: Sat, 25 Sep 2021 13:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:22:05.246417
- Title: Efficient Estimation and Evaluation of Prediction Rules in
Semi-Supervised Settings under Stratified Sampling
- Title(参考訳): 成層サンプリングによる半監督環境における予測規則の効率的な推定と評価
- Authors: Jessica Gronsbell and Molei Liu and Lu Tian and Tianxi Cai
- Abstract要約: 本稿では,2段階の半教師付き学習(SSL)手法を提案する。
ステップIでは、非ランダムサンプリングを考慮した非線形基底関数による重み付き回帰により、欠落ラベルをインプットする。
ステップIIでは、結果の予測器の整合性を確保するために、初期計算を増強する。
- 参考スコア(独自算出の注目度): 6.930951733450623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many contemporary applications, large amounts of unlabeled data are
readily available while labeled examples are limited. There has been
substantial interest in semi-supervised learning (SSL) which aims to leverage
unlabeled data to improve estimation or prediction. However, current SSL
literature focuses primarily on settings where labeled data is selected
randomly from the population of interest. Non-random sampling, while posing
additional analytical challenges, is highly applicable to many real world
problems. Moreover, no SSL methods currently exist for estimating the
prediction performance of a fitted model under non-random sampling. In this
paper, we propose a two-step SSL procedure for evaluating a prediction rule
derived from a working binary regression model based on the Brier score and
overall misclassification rate under stratified sampling. In step I, we impute
the missing labels via weighted regression with nonlinear basis functions to
account for nonrandom sampling and to improve efficiency. In step II, we
augment the initial imputations to ensure the consistency of the resulting
estimators regardless of the specification of the prediction model or the
imputation model. The final estimator is then obtained with the augmented
imputations. We provide asymptotic theory and numerical studies illustrating
that our proposals outperform their supervised counterparts in terms of
efficiency gain. Our methods are motivated by electronic health records (EHR)
research and validated with a real data analysis of an EHR-based study of
diabetic neuropathy.
- Abstract(参考訳): 現代の多くのアプリケーションでは、ラベルのないデータが大量に入手できるが、ラベル付きサンプルは限られている。
半教師付き学習(ssl)は、ラベルなしのデータを利用して推定や予測を改善することを目的としている。
しかし、現在のSSLの文献は、主に関心の人口からランダムにラベル付きデータが選択される設定に焦点を当てている。
非ランダムサンプリングは、さらなる分析的課題を呈する一方で、多くの現実世界の問題に非常に適用可能である。
さらに、非ランダムサンプリング下での適合モデルの予測性能を推定するためのSSLメソッドは存在しない。
本稿では,階層化サンプリングにおけるブライアスコアと全体的な誤分類率に基づいて,作業バイナリ回帰モデルに基づく予測規則を評価するための2段階ssl手法を提案する。
ステップiでは,非ランダムサンプリングを考慮した非線形基底関数を用いた重み付き回帰によって欠落ラベルをインデュートし,効率を向上させる。
ステップIIでは、予測モデルや計算モデルの仕様によらず、結果の予測値の整合性を確保するため、初期計算を増強する。
そして、最終推定器は、拡張計算により得られる。
我々は漸近理論と数値的研究を行い,提案手法が教師付き提案よりも効率の面で優れていることを示した。
本手法はEHR(Electronic Health Record)研究によって動機付けられ,糖尿病性ニューロパチーの実データ解析により検証された。
関連論文リスト
- Calibrating doubly-robust estimators with unbalanced treatment
assignment [0.0]
本稿では、確率スコアモデリングのためのデータをアンサンプするDML推定器の簡単な拡張を提案する。
本論文は, 推定器が推定器の特性を保ち, 校正値が元の分布に一致することを示す理論的結果を提供する。
論文 参考訳(メタデータ) (2024-03-03T18:40:11Z) - On the Out-Of-Distribution Robustness of Self-Supervised Representation
Learning for Phonocardiogram Signals [6.112582193985082]
信号の一般化表現を学習して心電図(PCG)サンプルの異常を検出するためのコントラスト自己監視学習(SSL)を提案する。
実験により, トレーニング分布によっては, 完全に教師されたモデルの有効性が32%まで低下することを示した。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect
Estimation [28.408998847597882]
因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果が観察されないため、クロスバリデーションの完全な類似は存在しない。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Surrogate Assisted Semi-supervised Inference for High Dimensional Risk
Prediction [3.10560974227074]
高次元予測器を用いたリスクモデリングのためのSAS(Surrogate Assisted Semi-supervised- Learning)アプローチを開発しています。
SAS法が高次元作業モデルに起因する予測リスクに対して有効な推論を提供することを実証する。
論文 参考訳(メタデータ) (2021-05-04T03:08:51Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Semi-Supervised Empirical Risk Minimization: Using unlabeled data to
improve prediction [4.860671253873579]
本稿では,経験的リスク最小化(Empirical Risk Minimization,ERM)学習プロセスの半教師付き学習(SSL)変種を設計するためにラベルのないデータを使用する一般的な手法を提案する。
我々は、予測性能の向上におけるSSLアプローチの有効性を分析した。
論文 参考訳(メタデータ) (2020-09-01T17:55:51Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。