論文の概要: Can Copulas Be Used for Feature Selection? A Machine Learning Study on Diabetes Risk Prediction
- arxiv url: http://arxiv.org/abs/2505.22554v1
- Date: Wed, 28 May 2025 16:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.735639
- Title: Can Copulas Be Used for Feature Selection? A Machine Learning Study on Diabetes Risk Prediction
- Title(参考訳): コプラは特徴選択に使えるか? 糖尿病リスク予測に関する機械学習研究
- Authors: Agnideep Aich, Md Monzur Murshed, Amanda Mayeaux, Sameera Hewage,
- Abstract要約: 本稿では,A2コプラのアッパーテール依存性係数(lambdaU)を用いた特徴選択フレームワークを提案する。
提案手法は,上尾の依存関係に基づいて5つの予測器を優先順位付けする。
これらの特徴は、4つの分類器にまたがるMIとGAの選択したサブセットにマッチする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate diabetes risk prediction relies on identifying key features from complex health datasets, but conventional methods like mutual information (MI) filters and genetic algorithms (GAs) often overlook extreme dependencies critical for high-risk subpopulations. In this study we introduce a feature-selection framework using the upper-tail dependence coefficient ({\lambda}U) of the novel A2 copula, which quantifies how often extreme higher values of a predictor co-occur with diabetes diagnoses (target variable). Applied to the CDC Diabetes Health Indicators dataset (n=253,680), our method prioritizes five predictors (self-reported general health, high blood pressure, body mass index, mobility limitations, and high cholesterol levels) based on upper tail dependencies. These features match or outperform MI and GA selected subsets across four classifiers (Random Forest, XGBoost, Logistic Regression, Gradient Boosting), achieving accuracy up to 86.5% (XGBoost) and AUC up to 0.806 (Gradient Boosting), rivaling the full 21-feature model. Permutation importance confirms clinical relevance, with BMI and general health driving accuracy. To our knowledge, this is the first work to apply a copula's upper-tail dependence for supervised feature selection, bridging extreme-value theory and machine learning to deliver a practical toolkit for diabetes prevention.
- Abstract(参考訳): 正確な糖尿病リスク予測は、複雑な健康データセットから重要な特徴を特定することに依存するが、相互情報フィルター(MI)や遺伝的アルゴリズム(GA)といった従来の手法は、リスクの高いサブポレーションに不可欠な極端な依存関係を見落としていることが多い。
本研究では,A2 copula のアッパーテール依存性係数 ({\lambda}U) を用いた特徴選択フレームワークを提案する。
CDC 糖尿病健康指標データセット (n=253,680) に応用し, 上肢依存性に基づく5つの予測因子 (自己報告型一般健康, 高血圧, 体量指数, 運動量制限, 高コレステロール値) を優先順位付けした。
これらの特徴は、4つの分類器(ランサムフォレスト、XGBoost、ロジスティック回帰、グラディエントブースティング)にまたがるMIとGAの選択したサブセットにマッチまたは上回り、精度は86.5%(XGBoost)、AUCは0.806(グラディエントブースティング)まで向上し、21機能モデルに匹敵する。
順応の重要性はBMIと一般的な健康運転の正確さと臨床関連性を確認している。
我々の知る限り、コプラの上尾依存性を監督的特徴選択、ブリッジング極値理論、機械学習に適用し、糖尿病予防のための実用的なツールキットを提供するのはこれが初めてである。
関連論文リスト
- Predicting Diabetes Using Machine Learning: A Comparative Study of Classifiers [0.0]
糖尿病は世界中で重要な健康上の課題であり、腎臓病、視力喪失、心臓病などの深刻な合併症に寄与している。
本研究は,従来のML技術と高度なアンサンブル手法の両方を活用する,革新的な糖尿病予測フレームワークを提案する。
我々のアプローチの中心は、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)レイヤを組み合わせたハイブリッドアーキテクチャであるDNetの開発である。
論文 参考訳(メタデータ) (2025-05-11T16:14:31Z) - From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis [47.23780364438969]
本稿では,CGMデータの生成基盤モデルであるGluFormerについて紹介する。
GluFormerは、異なる民族や年齢、5つの国、8つのCGMデバイス、多様な病態状態にまたがる19の外部コホートに一般化する。
CGMデータと12年間のフォローアップを持つ580人の成人の縦断的研究において、GluFormerは血液HbA1C%よりも糖尿病を効果的に発症するリスクが高い個人を特定する。
論文 参考訳(メタデータ) (2024-08-20T13:19:06Z) - A data balancing approach towards design of an expert system for Heart Disease Prediction [0.9895793818721335]
心臓病は深刻な世界的な健康問題で、毎年何百万人もの命がかかっています。
本稿では,決定木(DT),ランダムフォレスト(RF),線形判別分析,エクストラツリーブースト,アダブーストという5つの機械学習手法を用いた。
ランダムフォレストと決定木モデルの精度は99.83%だった。
論文 参考訳(メタデータ) (2024-07-26T08:56:13Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Secure and Privacy-Preserving Automated Machine Learning Operations into
End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring
System for Diabetes Mellitus Prediction [0.5825410941577593]
本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。
提案システムはブロックチェーンによって支えられ、異なる病院の患者からリスクファクターデータの密集したビューを得る。
提案システムでは,最も正確なランダム林モデルを用いて,数値実験と比較解析を行った。
論文 参考訳(メタデータ) (2022-11-13T13:57:14Z) - Building Brains: Subvolume Recombination for Data Augmentation in Large
Vessel Occlusion Detection [56.67577446132946]
この戦略をデータから学ぶためには、標準的なディープラーニングベースのモデルに対して、大規模なトレーニングデータセットが必要である。
そこで本研究では, 異なる患者から血管木セグメントを組換えることで, 人工的なトレーニングサンプルを生成する方法を提案する。
拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。
論文 参考訳(メタデータ) (2022-05-05T10:31:57Z) - Development of a dynamic type 2 diabetes risk prediction tool: a UK
Biobank study [0.8620335948752806]
英国バイオバンクデータセットの301機能を用いて10年間の2型糖尿病リスクスコアを算出した。
Cox比例ハザードモデルは、同じ特徴を使ってトレーニングされたDeepSurvモデルをわずかに上回った。
このツールは、2型糖尿病のリスクのある患者の臨床スクリーニングや患者のエンパワーメントの促進に使用できる。
論文 参考訳(メタデータ) (2021-04-20T16:37:26Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。