論文の概要: The Conditional Prediction Function: A Novel Technique to Control False
Discovery Rate for Complex Models
- arxiv url: http://arxiv.org/abs/2310.04919v1
- Date: Sat, 7 Oct 2023 21:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 14:27:01.248831
- Title: The Conditional Prediction Function: A Novel Technique to Control False
Discovery Rate for Complex Models
- Title(参考訳): 条件付き予測関数:複素モデルにおける偽発見率を制御する新しい手法
- Authors: Yushu Shi and Michael Martens
- Abstract要約: 現状の機械学習予測モデルと組み合わせることができる条件付き予測関数(CPF)に基づくノックオフ統計を導入する。
CPF統計は、予測器と結果の間の非線形関係を捉えることができ、特徴間の相関も考慮できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern scientific research, the objective is often to identify which
variables are associated with an outcome among a large class of potential
predictors. This goal can be achieved by selecting variables in a manner that
controls the the false discovery rate (FDR), the proportion of irrelevant
predictors among the selections. Knockoff filtering is a cutting-edge approach
to variable selection that provides FDR control. Existing knockoff statistics
frequently employ linear models to assess relationships between features and
the response, but the linearity assumption is often violated in real world
applications. This may result in poor power to detect truly prognostic
variables. We introduce a knockoff statistic based on the conditional
prediction function (CPF), which can pair with state-of-art machine learning
predictive models, such as deep neural networks. The CPF statistics can capture
the nonlinear relationships between predictors and outcomes while also
accounting for correlation between features. We illustrate the capability of
the CPF statistics to provide superior power over common knockoff statistics
with continuous, categorical, and survival outcomes using repeated simulations.
Knockoff filtering with the CPF statistics is demonstrated using (1) a
residential building dataset to select predictors for the actual sales prices
and (2) the TCGA dataset to select genes that are correlated with disease
staging in lung cancer patients.
- Abstract(参考訳): 現代の科学的研究において、その目的は、どの変数が大きな種類の潜在的な予測者の間で結果に関連付けられているかを特定することである。
このゴールは、選択中の無関係な予測者の比率である偽発見率(fdr)を制御する方法で変数を選択することで達成できる。
Knockoff filteringは、FDR制御を提供する可変選択に対する最先端のアプローチである。
既存のノックオフ統計は特徴と応答の関係を評価するためにしばしば線形モデルを用いるが、現実の応用では線形性仮定がしばしば破られる。
これにより、真の予測変数を検出する能力が低下する可能性がある。
本稿では,ニューラルネットワークなどの最先端の機械学習予測モデルと組み合わせた条件付き予測関数(cpf)に基づくノックオフ統計法を提案する。
cpf統計は予測者と結果の間の非線形関係を捉えることができ、特徴間の相関も考慮できる。
繰り返しシミュレーションを用いて,CPF統計を連続的,分類的,生存的な結果を含む共通のノックオフ統計よりも優れたパワーを提供する能力について述べる。
CPF統計を用いたノックオフフィルタリングは,(1)実際の販売価格を予測するための住宅用ビルディングデータセット,(2)肺がん患者の病期と相関する遺伝子を選択するためのTCGAデータセットを用いて実証された。
関連論文リスト
- Evidential time-to-event prediction model with well-calibrated uncertainty estimation [12.446406577462069]
本稿では,特に時間-時間予測タスクのために設計された明らかな回帰モデルを提案する。
最も確実な事象時間は、集約されたガウスランダムファジィ数(GRFN)によって直接定量化される
我々のモデルは精度と信頼性の両方を達成し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:04Z) - Interval Estimation of Coefficients in Penalized Regression Models of Insurance Data [3.5637073151604093]
ツイーディー指数分散ファミリーは、保険の損失をモデル化するために多くの人々の間で人気がある。
内在変数を記述する最も重要な特徴の信頼性(推論)を得るためには、しばしば重要である。
論文 参考訳(メタデータ) (2024-10-01T18:57:18Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Modeling High-Dimensional Data with Unknown Cut Points: A Fusion
Penalized Logistic Threshold Regression [2.520538806201793]
従来のロジスティック回帰モデルでは、リンク関数は線形で連続であると見なされることが多い。
我々は、全ての連続した特徴が順序レベルに離散化され、さらにバイナリ応答が決定されるしきい値モデルを考える。
糖尿病のような慢性疾患の早期発見と予知の問題において,ラッソモデルが好適であることが判明した。
論文 参考訳(メタデータ) (2022-02-17T04:16:40Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - When in Doubt: Neural Non-Parametric Uncertainty Quantification for
Epidemic Forecasting [70.54920804222031]
既存の予測モデルは不確実な定量化を無視し、誤校正予測をもたらす。
不確実性を考慮した時系列予測のためのディープニューラルネットワークの最近の研究にもいくつかの制限がある。
本稿では,予測タスクを確率的生成過程としてモデル化し,EPIFNPと呼ばれる機能的ニューラルプロセスモデルを提案する。
論文 参考訳(メタデータ) (2021-06-07T18:31:47Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Curse of Small Sample Size in Forecasting of the Active Cases in
COVID-19 Outbreak [0.0]
新型コロナウイルス(COVID-19)のパンデミックでは、感染者数や今後の流行を予想する試みが多数行われている。
しかし、信頼性の高い方法では、新型コロナウイルス(COVID-19)の根本的特徴の中期的・長期的進化を許容できる精度で予測することができない。
本稿では,この予測問題における機械学習モデルの故障について説明する。
論文 参考訳(メタデータ) (2020-11-06T23:13:34Z) - Causal Transfer Random Forest: Combining Logged Data and Randomized
Experiments for Robust Prediction [8.736551469632758]
本稿では,既存のトレーニングデータとランダム化実験から得られた少量のデータを組み合わせてモデルを訓練するCTRFについて述べる。
我々は,Bing Adsプラットフォームにおける合成データ実験と実世界の実験の両方を用いてCTRFを評価する。
論文 参考訳(メタデータ) (2020-10-17T03:54:37Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。