Fugu-MT 論文翻訳(概要): Efficient Estimation and Evaluation of Prediction Rules in Semi-Supervised Settings under Stratified Sampling

論文の概要: Efficient Estimation and Evaluation of Prediction Rules in Semi-Supervised Settings under Stratified Sampling

arxiv url: http://arxiv.org/abs/2010.09443v2
Date: Sat, 25 Sep 2021 13:53:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 21:22:05.246417
Title: Efficient Estimation and Evaluation of Prediction Rules in Semi-Supervised Settings under Stratified Sampling
Title（参考訳）: 成層サンプリングによる半監督環境における予測規則の効率的な推定と評価
Authors: Jessica Gronsbell and Molei Liu and Lu Tian and Tianxi Cai
Abstract要約: 本稿では,2段階の半教師付き学習(SSL)手法を提案する。ステップIでは、非ランダムサンプリングを考慮した非線形基底関数による重み付き回帰により、欠落ラベルをインプットする。ステップIIでは、結果の予測器の整合性を確保するために、初期計算を増強する。
参考スコア（独自算出の注目度）: 6.930951733450623
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many contemporary applications, large amounts of unlabeled data are readily available while labeled examples are limited. There has been substantial interest in semi-supervised learning (SSL) which aims to leverage unlabeled data to improve estimation or prediction. However, current SSL literature focuses primarily on settings where labeled data is selected randomly from the population of interest. Non-random sampling, while posing additional analytical challenges, is highly applicable to many real world problems. Moreover, no SSL methods currently exist for estimating the prediction performance of a fitted model under non-random sampling. In this paper, we propose a two-step SSL procedure for evaluating a prediction rule derived from a working binary regression model based on the Brier score and overall misclassification rate under stratified sampling. In step I, we impute the missing labels via weighted regression with nonlinear basis functions to account for nonrandom sampling and to improve efficiency. In step II, we augment the initial imputations to ensure the consistency of the resulting estimators regardless of the specification of the prediction model or the imputation model. The final estimator is then obtained with the augmented imputations. We provide asymptotic theory and numerical studies illustrating that our proposals outperform their supervised counterparts in terms of efficiency gain. Our methods are motivated by electronic health records (EHR) research and validated with a real data analysis of an EHR-based study of diabetic neuropathy.
Abstract（参考訳）: 現代の多くのアプリケーションでは、ラベルのないデータが大量に入手できるが、ラベル付きサンプルは限られている。半教師付き学習(ssl)は、ラベルなしのデータを利用して推定や予測を改善することを目的としている。しかし、現在のSSLの文献は、主に関心の人口からランダムにラベル付きデータが選択される設定に焦点を当てている。非ランダムサンプリングは、さらなる分析的課題を呈する一方で、多くの現実世界の問題に非常に適用可能である。さらに、非ランダムサンプリング下での適合モデルの予測性能を推定するためのSSLメソッドは存在しない。本稿では,階層化サンプリングにおけるブライアスコアと全体的な誤分類率に基づいて,作業バイナリ回帰モデルに基づく予測規則を評価するための2段階ssl手法を提案する。ステップiでは,非ランダムサンプリングを考慮した非線形基底関数を用いた重み付き回帰によって欠落ラベルをインデュートし,効率を向上させる。ステップIIでは、予測モデルや計算モデルの仕様によらず、結果の予測値の整合性を確保するため、初期計算を増強する。そして、最終推定器は、拡張計算により得られる。我々は漸近理論と数値的研究を行い,提案手法が教師付き提案よりも効率の面で優れていることを示した。本手法はEHR(Electronic Health Record)研究によって動機付けられ,糖尿病性ニューロパチーの実データ解析により検証された。

関連論文リスト

Asymptotic Theory of Iterated Empirical Risk Minimization, with Applications to Active Learning [15.858234832499585]
本研究では,2つの連続ERMを同一データセット上で実行した反復的経験的リスク(ERM)のクラスについて検討する。ガウス混合データに対して幅広い凸損失を訓練した線形モデルに対して、テスト誤差の鋭い特徴付けを導出する。ラベル付け予算の段階的配分に関する基本的なトレードオフを明らかにするとともに、データ選択によって純粋に駆動されるテストエラーの2D動作を実証する。
論文参考訳（メタデータ） (2026-01-30T14:39:51Z)
Robust Sampling for Active Statistical Inference [11.929391566298841]
アクティブ統計的推論はAI支援データ収集を用いた新しい推論手法である。アクティブな統計的推測のためのロバストなサンプリング戦略を提案する。本稿では,本手法の有効性を実データに示す。
論文参考訳（メタデータ） (2025-11-12T05:18:36Z)
Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文参考訳（メタデータ） (2025-06-02T09:46:08Z)
Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文参考訳（メタデータ） (2025-05-27T05:20:17Z)
Active Data Sampling and Generation for Bias Remediation [0.0]
トレーニング済みのクラスを微調整する際、不公平な分類を補うために、サンプリングとデータ生成の混合戦略が提案されている。視覚的セマンティック・ロール・ラベリングのためのDeep Modelsのケーススタディとして、提案手法は90/10の不均衡から始まるシミュレートされたジェンダーバイアスを完全に解決することができる。
論文参考訳（メタデータ） (2025-03-26T10:42:15Z)
Histogram Approaches for Imbalanced Data Streams Regression [1.8385275253826225]
不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
論文参考訳（メタデータ） (2025-01-29T11:03:02Z)
Semi-supervised Regression Analysis with Model Misspecification and High-dimensional Data [8.619243141968886]
条件付き平均モデルにおける回帰係数を推定するための推論フレームワークを提案する。提案手法は,正規化推定器を適応度スコア(PS)と結果回帰(OR)モデルの両方に用い,拡張逆確率重み付き(AIPW)法を開発した。我々の理論的な知見は、広範囲なシミュレーション研究と実世界のデータ応用を通して検証される。
論文参考訳（メタデータ） (2024-06-20T00:34:54Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
Calibrating doubly-robust estimators with unbalanced treatment assignment [0.0]
本稿では、確率スコアモデリングのためのデータをアンサンプするDML推定器の簡単な拡張を提案する。本論文は, 推定器が推定器の特性を保ち, 校正値が元の分布に一致することを示す理論的結果を提供する。
論文参考訳（メタデータ） (2024-03-03T18:40:11Z)
Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。 ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文参考訳（メタデータ） (2021-12-15T15:17:02Z)
A comparison of approaches to improve worst-case predictive model performance over patient subpopulations [14.175321968797252]
患者において平均的に正確な臨床結果の予測モデルは、いくつかのサブ集団に対して劇的に過小評価される可能性がある。サブポピュレーションに対する解離および最悪の性能を一貫して改善するモデル開発と選択のアプローチを同定する。本研究は, 比較的少数の例外を除いて, 標準学習法よりも, 患者サブポピュレーションに対するアプローチが優れていることが確認された。
論文参考訳（メタデータ） (2021-08-27T13:10:00Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)
Surrogate Assisted Semi-supervised Inference for High Dimensional Risk Prediction [3.10560974227074]
高次元予測器を用いたリスクモデリングのためのSAS(Surrogate Assisted Semi-supervised- Learning)アプローチを開発しています。 SAS法が高次元作業モデルに起因する予測リスクに対して有効な推論を提供することを実証する。
論文参考訳（メタデータ） (2021-05-04T03:08:51Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文参考訳（メタデータ） (2020-12-17T21:10:10Z)
Semi-Supervised Empirical Risk Minimization: Using unlabeled data to improve prediction [4.860671253873579]
本稿では,経験的リスク最小化(Empirical Risk Minimization,ERM)学習プロセスの半教師付き学習(SSL)変種を設計するためにラベルのないデータを使用する一般的な手法を提案する。我々は、予測性能の向上におけるSSLアプローチの有効性を分析した。
論文参考訳（メタデータ） (2020-09-01T17:55:51Z)
Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2020-06-08T07:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。