論文の概要: Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning
- arxiv url: http://arxiv.org/abs/2104.02769v1
- Date: Tue, 6 Apr 2021 20:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 02:40:21.682681
- Title: Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning
- Title(参考訳): 共変量と結果の両方に欠落したデータを用いた変数選択:インプテーションと機械学習
- Authors: Liangyuan Hu and Jung-Yi Joyce Lin and Jiayi Ji
- Abstract要約: 欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
- 参考スコア(独自算出の注目度): 1.0333430439241666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The missing data issue is ubiquitous in health studies. Variable selection in
the presence of both missing covariates and outcomes is an important
statistical research topic but has been less studied. Existing literature
focuses on parametric regression techniques that provide direct parameter
estimates of the regression model. In practice, parametric regression models
are often sub-optimal for variable selection because they are susceptible to
misspecification. Machine learning methods considerably weaken the parametric
assumptions and increase modeling flexibility, but do not provide as naturally
defined variable importance measure as the covariate effect native to
parametric models. We investigate a general variable selection approach when
both the covariates and outcomes can be missing at random and have general
missing data patterns. This approach exploits the flexibility of machine
learning modeling techniques and bootstrap imputation, which is amenable to
nonparametric methods in which the covariate effects are not directly
available. We conduct expansive simulations investigating the practical
operating characteristics of the proposed variable selection approach, when
combined with four tree-based machine learning methods, XGBoost, Random
Forests, Bayesian Additive Regression Trees (BART) and Conditional Random
Forests, and two commonly used parametric methods, lasso and backward stepwise
selection. Numeric results show XGBoost and BART have the overall best
performance across various settings. Guidance for choosing methods appropriate
to the structure of the analysis data at hand are discussed. We further
demonstrate the methods via a case study of risk factors for 3-year incidence
of metabolic syndrome with data from the Study of Women's Health Across the
Nation.
- Abstract(参考訳): 欠落したデータ問題は、健康研究においてどこにでもある。
共変量と結果の両方が存在する場合の変数選択は重要な統計研究テーマであるが、あまり研究されていない。
既存の文献は回帰モデルの直接パラメータ推定を提供するパラメトリック回帰技術に焦点を当てている。
実際、パラメトリック回帰モデルは、誤特定の影響を受けやすいため、変数選択に最適ではないことが多い。
機械学習手法はパラメトリック仮定を著しく弱め、モデリングの柔軟性を向上させるが、パラメトリックモデルに固有の共変量効果として自然に定義された変動重要度尺度は提供しない。
共変量と結果の両方がランダムに欠落し、一般的な欠落データパターンを持つ場合の一般変数選択手法を検討する。
このアプローチは、機械学習モデリング技術とブートストラップ計算の柔軟性を利用しており、これは共変量効果が直接利用できない非パラメトリックな手法に適応できる。
提案手法は, xgboost, random forests, bayesian additive regression tree (bart), conditional random forestsの4つの木ベースの機械学習手法と,lassoとbackward stepwiseの2つのパラメトリック手法を組み合わせることで,提案手法の実用的動作特性を検討する。
数値的な結果から、XGBoostとBARTは、さまざまな設定で総合的に最高のパフォーマンスを示している。
分析データの構造に適した方法を選択するためのガイダンスについて論じる。
さらに, メタボリックシンドロームの3年間の発症リスク要因のケーススタディと, 全国における女性健康研究のデータを用いて, その方法の実証を行った。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Toward Physically Plausible Data-Driven Models: A Novel Neural Network
Approach to Symbolic Regression [2.7071541526963805]
本稿では,ニューラルネットワークに基づく記号回帰手法を提案する。
非常に小さなトレーニングデータセットとシステムに関する事前知識に基づいて、物理的に妥当なモデルを構築する。
本研究では,TurtleBot 2移動ロボット,磁気操作システム,2つの抵抗の等価抵抗,アンチロックブレーキシステムの長手力の4つの試験システムに対するアプローチを実験的に評価した。
論文 参考訳(メタデータ) (2023-02-01T22:05:04Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Flexible variable selection in the presence of missing data [0.0]
本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルの開発を行う。
提案手法の動作特性は良好であり,より高い分類性能と可変選択性能を有するパネルが得られた。
論文 参考訳(メタデータ) (2022-02-25T21:41:03Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - An interpretable prediction model for longitudinal dispersion
coefficient in natural streams based on evolutionary symbolic regression
network [30.99493442296212]
縦分散係数(LDC)の予測には様々な方法が提案されている。
本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。
次に、進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰法を設計する。
論文 参考訳(メタデータ) (2021-06-17T07:06:05Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。