論文の概要: Assumption-lean and Data-adaptive Post-Prediction Inference
- arxiv url: http://arxiv.org/abs/2311.14220v3
- Date: Tue, 6 Feb 2024 21:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 12:09:48.093571
- Title: Assumption-lean and Data-adaptive Post-Prediction Inference
- Title(参考訳): 推定リーンとデータ適応予測
- Authors: Jiacheng Miao, Xinran Miao, Yixuan Wu, Jiwei Zhao, and Qiongshi Lu
- Abstract要約: 本稿では,POP-Inf(Massor-lean and data-adaptive Post-Prediction Inference)手法を提案する。
その「推定リーン」特性は、ML予測に関する仮定なしで信頼できる統計的推測を保証する。
シミュレーションと大規模ゲノムデータを用いて,本手法の優位性と適用性を示す。
- 参考スコア(独自算出の注目度): 1.5050365268347254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A primary challenge facing modern scientific research is the limited
availability of gold-standard data which can be both costly and labor-intensive
to obtain. With the rapid development of machine learning (ML), scientists have
relied on ML algorithms to predict these gold-standard outcomes with easily
obtained covariates. However, these predicted outcomes are often used directly
in subsequent statistical analyses, ignoring imprecision and heterogeneity
introduced by the prediction procedure. This will likely result in false
positive findings and invalid scientific conclusions. In this work, we
introduce an assumption-lean and data-adaptive Post-Prediction Inference
(POP-Inf) procedure that allows valid and powerful inference based on
ML-predicted outcomes. Its "assumption-lean" property guarantees reliable
statistical inference without assumptions on the ML-prediction, for a wide
range of statistical quantities. Its "data-adaptive'" feature guarantees an
efficiency gain over existing post-prediction inference methods, regardless of
the accuracy of ML-prediction. We demonstrate the superiority and applicability
of our method through simulations and large-scale genomic data.
- Abstract(参考訳): 現代の科学研究が直面する主な課題は金本位制のデータの入手が限られていることであり、費用と労力がかかる。
機械学習(ML)の急速な発展により、科学者は容易に得られる共変量でこれらの金標準結果を予測するためにMLアルゴリズムに依存してきた。
しかし、これらの予測結果は、予測手順によってもたらされた不正確さや不均質性を無視して、後続の統計分析で直接使用されることが多い。
これはおそらく偽陽性の発見と無効な科学的結論をもたらす。
本研究では、ML予測結果に基づいて、有効かつ強力な推論を可能にする仮定型およびデータ適応型ポストプレディション推論(POP-Inf)手法を提案する。
その「推定リーン」特性は、幅広い統計量のML予測を仮定せずに信頼できる統計的推測を保証する。
その"data-adaptive"機能は、ml-predictionの精度に関わらず、既存の予測後推論メソッドよりも効率性が向上する。
シミュレーションと大規模ゲノムデータを用いて,本手法の優位性と適用性を示す。
関連論文リスト
- Mechanism learning: Reverse causal inference in the presence of multiple unknown confounding through front-door causal bootstrapping [0.8901073744693314]
機械学習(ML)予測モデルの最大の制限は、変数間の因果関係ではなく、関連性を取り戻すことである。
本稿では,前向きの因果ブートストラップを用いて観測データを分解する機構学習を提案する。
提案手法は,完全合成,半合成,実世界のデータセットを用いて,信頼性,不偏性,因果的ML予測器を検出できることを実証する。
論文 参考訳(メタデータ) (2024-10-26T03:34:55Z) - Task-Agnostic Machine-Learning-Assisted Inference [0.0]
タスクに依存しないML支援推論のためのPSPSという新しい統計フレームワークを提案する。
PSPSは、ほぼすべての確立したデータ分析ルーチンに簡単にプラグインできる予測後推論ソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-30T13:19:49Z) - Clustering and Uncertainty Analysis to Improve the Machine
Learning-based Predictions of SAFARI-1 Control Follower Assembly Axial
Neutron Flux Profiles [2.517043342442487]
この研究の目的は、SAFARI-1実験炉の組み立て軸流中性子フラックスプロファイルを予測するための正確な機械学習(ML)モデルを開発することである。
MLモデルのデータ駆動性は、トレーニングデータにおけるノイズなどのソースによって導入された不確実性に影響を受けやすい。
本研究の目的は,教師付きMLアルゴリズムと教師なしMLアルゴリズムを組み合わせることで,制御アセンブリのMLモデルを改善することである。
論文 参考訳(メタデータ) (2023-12-20T20:22:13Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。
合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文 参考訳(メタデータ) (2022-07-21T18:00:01Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。