論文の概要: Efficient semi-supervised inference for logistic regression under
case-control studies
- arxiv url: http://arxiv.org/abs/2402.15365v1
- Date: Fri, 23 Feb 2024 14:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:09:12.165025
- Title: Efficient semi-supervised inference for logistic regression under
case-control studies
- Title(参考訳): ケースコントロール研究におけるロジスティック回帰の効率的な半教師付き推論
- Authors: Zhuojun Quan, Yuanyuan Lin, Kani Chen, Wen Yu
- Abstract要約: ラベル付きデータの結果がバイナリとなる半教師付き設定における推論問題を考える。
ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するための効果的なサンプリング手法である。
ラベルのないデータが利用可能であれば、インターセプトパラメータを半教師付き学習設定で識別できることが分かる。
- 参考スコア(独自算出の注目度): 3.5485531932219243
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Semi-supervised learning has received increasingly attention in statistics
and machine learning. In semi-supervised learning settings, a labeled data set
with both outcomes and covariates and an unlabeled data set with covariates
only are collected. We consider an inference problem in semi-supervised
settings where the outcome in the labeled data is binary and the labeled data
is collected by case-control sampling. Case-control sampling is an effective
sampling scheme for alleviating imbalance structure in binary data. Under the
logistic model assumption, case-control data can still provide consistent
estimator for the slope parameter of the regression model. However, the
intercept parameter is not identifiable. Consequently, the marginal case
proportion cannot be estimated from case-control data. We find out that with
the availability of the unlabeled data, the intercept parameter can be
identified in semi-supervised learning setting. We construct the likelihood
function of the observed labeled and unlabeled data and obtain the maximum
likelihood estimator via an iterative algorithm. The proposed estimator is
shown to be consistent, asymptotically normal, and semiparametrically
efficient. Extensive simulation studies are conducted to show the finite sample
performance of the proposed method. The results imply that the unlabeled data
not only helps to identify the intercept but also improves the estimation
efficiency of the slope parameter. Meanwhile, the marginal case proportion can
be estimated accurately by the proposed method.
- Abstract(参考訳): 半教師付き学習は統計学と機械学習にますます注目を集めている。
半教師付き学習設定では、結果と共変量の両方のラベル付きデータセットと、共変量のみのラベル付きデータセットとを収集する。
ラベル付きデータの結果がバイナリであり、ラベル付きデータがケースコントロールサンプリングによって収集される半教師付き設定における推論問題を考える。
ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するための効果的なサンプリングスキームである。
ロジスティックモデル仮定の下では、ケースコントロールデータは回帰モデルの傾斜パラメータに対して一貫した推定子を提供できる。
しかし、インターセプトパラメータは特定できない。
これにより、ケース制御データから限界ケース比を推定できない。
ラベルなしのデータが利用可能になると、インターセプトパラメータが半教師あり学習設定で識別できることが分かる。
観測されたラベル付きおよびラベルなしデータの確率関数を構築し,反復アルゴリズムを用いて最大確率推定値を求める。
提案する推定器は一貫性があり、漸近的に正規であり、半パラメトリックに効率的である。
提案手法の有限サンプル性能を示すため, 広範囲なシミュレーション実験を行った。
その結果、ラベルのないデータはインターセプトを識別するだけでなく、傾斜パラメータの推定効率を向上させることが示唆された。
一方,提案手法では,限界ケースの割合を精度良く推定できる。
関連論文リスト
- Assumption-Lean Post-Integrated Inference with Negative Control Outcomes [0.0]
負の制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
提案手法は,予測された直接効果推定値,隠された仲介者,共同設立者,モデレーターまで拡張する。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - Statistical inference for case-control logistic regression via integrating external summary data [8.369377566749202]
ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するために一般的に使用される振り返りサンプリング設計である。
内部ケース制御データと外部情報を組み込んでロジスティックモデルを推定するために,実証的可能性に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T07:47:38Z) - On semi-supervised estimation using exponential tilt mixture models [12.347498345854715]
バイナリ応答と予測器のラベル付きデータセットと、予測器のみのラベル付きデータセットによる半教師付き設定を考えてみましょう。
半教師付き推定のために,指数傾斜混合(ETM)モデルを用いた統計的アプローチのさらなる解析と理解を開発する。
論文 参考訳(メタデータ) (2023-11-14T19:53:26Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data [15.696653979226113]
不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T15:37:22Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。