Fugu-MT 論文翻訳(概要): Variable selection with missing data in both covariates and outcomes: Imputation and machine learning

論文の概要: Variable selection with missing data in both covariates and outcomes: Imputation and machine learning

arxiv url: http://arxiv.org/abs/2104.02769v1
Date: Tue, 6 Apr 2021 20:18:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-09 02:40:21.682681
Title: Variable selection with missing data in both covariates and outcomes: Imputation and machine learning
Title（参考訳）: 共変量と結果の両方に欠落したデータを用いた変数選択:インプテーションと機械学習
Authors: Liangyuan Hu and Jung-Yi Joyce Lin and Jiayi Ji
Abstract要約: 欠落したデータ問題は、健康研究で普遍的です。機械学習はパラメトリックな仮定を弱める。 XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
参考スコア（独自算出の注目度）: 1.0333430439241666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The missing data issue is ubiquitous in health studies. Variable selection in the presence of both missing covariates and outcomes is an important statistical research topic but has been less studied. Existing literature focuses on parametric regression techniques that provide direct parameter estimates of the regression model. In practice, parametric regression models are often sub-optimal for variable selection because they are susceptible to misspecification. Machine learning methods considerably weaken the parametric assumptions and increase modeling flexibility, but do not provide as naturally defined variable importance measure as the covariate effect native to parametric models. We investigate a general variable selection approach when both the covariates and outcomes can be missing at random and have general missing data patterns. This approach exploits the flexibility of machine learning modeling techniques and bootstrap imputation, which is amenable to nonparametric methods in which the covariate effects are not directly available. We conduct expansive simulations investigating the practical operating characteristics of the proposed variable selection approach, when combined with four tree-based machine learning methods, XGBoost, Random Forests, Bayesian Additive Regression Trees (BART) and Conditional Random Forests, and two commonly used parametric methods, lasso and backward stepwise selection. Numeric results show XGBoost and BART have the overall best performance across various settings. Guidance for choosing methods appropriate to the structure of the analysis data at hand are discussed. We further demonstrate the methods via a case study of risk factors for 3-year incidence of metabolic syndrome with data from the Study of Women's Health Across the Nation.
Abstract（参考訳）: 欠落したデータ問題は、健康研究においてどこにでもある。共変量と結果の両方が存在する場合の変数選択は重要な統計研究テーマであるが、あまり研究されていない。既存の文献は回帰モデルの直接パラメータ推定を提供するパラメトリック回帰技術に焦点を当てている。実際、パラメトリック回帰モデルは、誤特定の影響を受けやすいため、変数選択に最適ではないことが多い。機械学習手法はパラメトリック仮定を著しく弱め、モデリングの柔軟性を向上させるが、パラメトリックモデルに固有の共変量効果として自然に定義された変動重要度尺度は提供しない。共変量と結果の両方がランダムに欠落し、一般的な欠落データパターンを持つ場合の一般変数選択手法を検討する。このアプローチは、機械学習モデリング技術とブートストラップ計算の柔軟性を利用しており、これは共変量効果が直接利用できない非パラメトリックな手法に適応できる。提案手法は, xgboost, random forests, bayesian additive regression tree (bart), conditional random forestsの4つの木ベースの機械学習手法と,lassoとbackward stepwiseの2つのパラメトリック手法を組み合わせることで,提案手法の実用的動作特性を検討する。数値的な結果から、XGBoostとBARTは、さまざまな設定で総合的に最高のパフォーマンスを示している。分析データの構造に適した方法を選択するためのガイダンスについて論じる。さらに, メタボリックシンドロームの3年間の発症リスク要因のケーススタディと, 全国における女性健康研究のデータを用いて, その方法の実証を行った。

関連論文リスト

Testing-driven Variable Selection in Bayesian Modal Regression [0.4173831365316023]
パラメータ推定を高速化するために,効率的な予測最大化アルゴリズムを用いる。モデル誤差分布の形状を利用するテスト統計を構築した。
論文参考訳（メタデータ） (2025-10-27T20:17:34Z)
Which Imputation Fits Which Feature Selection Method? A Survey-Based Simulation Study [4.335350817722218]
特徴重要度尺度は、通常、特徴選択とモデルにおける結果変数に対する特徴の影響を評価するために考慮される。典型的な解決策は、学習方法を適用する前に、欠落したデータをインプットすることである。我々は、ランダムフォレスト(Random Forest)とXGBoost(XGBoost)の2つの最も一般的なツリーベース手法と、正規化を伴う解釈可能な線形モデルを考える。
論文参考訳（メタデータ） (2024-12-18T07:36:03Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文参考訳（メタデータ） (2024-03-02T00:56:05Z)
Comparative Analysis of Data Preprocessing Methods, Feature Selection Techniques and Machine Learning Models for Improved Classification and Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文参考訳（メタデータ） (2024-02-22T21:41:27Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文参考訳（メタデータ） (2023-09-28T13:04:11Z)
Toward Physically Plausible Data-Driven Models: A Novel Neural Network Approach to Symbolic Regression [2.7071541526963805]
本稿では,ニューラルネットワークに基づく記号回帰手法を提案する。非常に小さなトレーニングデータセットとシステムに関する事前知識に基づいて、物理的に妥当なモデルを構築する。本研究では,TurtleBot 2移動ロボット,磁気操作システム,2つの抵抗の等価抵抗,アンチロックブレーキシステムの長手力の4つの試験システムに対するアプローチを実験的に評価した。
論文参考訳（メタデータ） (2023-02-01T22:05:04Z)
Equivariance Allows Handling Multiple Nuisance Variables When Analyzing Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文参考訳（メタデータ） (2022-03-29T04:54:06Z)
Flexible variable selection in the presence of missing data [0.0]
本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルの開発を行う。提案手法の動作特性は良好であり,より高い分類性能と可変選択性能を有するパネルが得られた。
論文参考訳（メタデータ） (2022-02-25T21:41:03Z)
Nonparametric Functional Analysis of Generalized Linear Models Under Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文参考訳（メタデータ） (2021-10-11T04:49:59Z)
An interpretable prediction model for longitudinal dispersion coefficient in natural streams based on evolutionary symbolic regression network [30.99493442296212]
縦分散係数(LDC)の予測には様々な方法が提案されている。本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。次に、進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰法を設計する。
論文参考訳（メタデータ） (2021-06-17T07:06:05Z)
An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。我々はイタリアとフランスの疫病の進化を予報する。
論文参考訳（メタデータ） (2020-10-28T10:58:59Z)
Two-step penalised logistic regression for multi-omic data with an application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文参考訳（メタデータ） (2020-08-01T10:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。