論文の概要: Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling
- arxiv url: http://arxiv.org/abs/2501.18577v1
- Date: Thu, 30 Jan 2025 18:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:48.339027
- Title: Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling
- Title(参考訳): 擬似共変量と非一様サンプリングによる予測パワー推論
- Authors: Dan M. Kluger, Kerri Lu, Tijana Zrnic, Sherrie Wang, Stephen Bates,
- Abstract要約: 機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。
我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。
これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
- 参考スコア(独自算出の注目度): 20.078602767179355
- License:
- Abstract: Machine learning models are increasingly used to produce predictions that serve as input data in subsequent statistical analyses. For example, computer vision predictions of economic and environmental indicators based on satellite imagery are used in downstream regressions; similarly, language models are widely used to approximate human ratings and opinions in social science research. However, failure to properly account for errors in the machine learning predictions renders standard statistical procedures invalid. Prior work uses what we call the Predict-Then-Debias estimator to give valid confidence intervals when machine learning algorithms impute missing variables, assuming a small complete sample from the population of interest. We expand the scope by introducing bootstrap confidence intervals that apply when the complete data is a nonuniform (i.e., weighted, stratified, or clustered) sample and to settings where an arbitrary subset of features is imputed. Importantly, the method can be applied to many settings without requiring additional calculations. We prove that these confidence intervals are valid under no assumptions on the quality of the machine learning model and are no wider than the intervals obtained by methods that do not use machine learning predictions.
- Abstract(参考訳): 機械学習モデルは、その後の統計分析において入力データとして機能する予測を生成するために、ますます使われている。
例えば、衛星画像に基づく経済・環境指標のコンピュータビジョン予測は下流回帰において使用され、同様に、言語モデルは社会科学研究における人間の評価と意見の近似に広く用いられている。
しかし、機械学習の予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。
これまでの研究では、予測・Then-Debias推定器(Predict-Then-Debias estimator)と呼ばれるものを使って、機械学習アルゴリズムが不足変数をインプットするときに、関心の集団からの小さな完全なサンプルを仮定して、有効な信頼区間を与える。
我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間を導入し、任意の機能のサブセットがインプットされる設定に拡張する。
重要なことは、余分な計算を必要とせずに、多くの設定にこの手法を適用することができる。
これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
関連論文リスト
- Fair Generalized Linear Mixed Models [0.0]
機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。
両問題を同時に処理できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T11:42:41Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Data Uncertainty without Prediction Models [0.8223798883838329]
予測モデルを明示的に使用せずに、距離重み付きクラス不純物という不確実性推定手法を提案する。
距離重み付きクラス不純物は予測モデルによらず効果的に機能することを確認した。
論文 参考訳(メタデータ) (2022-04-25T13:26:06Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Uncertainty Prediction for Machine Learning Models of Material
Properties [0.0]
物質特性のAIベースの予測の不確実性は、物質科学におけるAIアプリケーションの成功と信頼性にとって非常に重要である。
このような個人的不確実性を得るための3つの異なるアプローチを比較し、それらを12のML物理特性で検証する。
論文 参考訳(メタデータ) (2021-07-16T16:33:55Z) - A Note on High-Probability versus In-Expectation Guarantees of
Generalization Bounds in Machine Learning [95.48744259567837]
統計的機械学習理論は、しばしば機械学習モデルの一般化を保証するよう試みる。
機械学習モデルのパフォーマンスに関する声明は、サンプリングプロセスを考慮する必要がある。
1つのステートメントを別のステートメントに変換する方法を示します。
論文 参考訳(メタデータ) (2020-10-06T09:41:35Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。