論文の概要: A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning
- arxiv url: http://arxiv.org/abs/2505.22554v2
- Date: Tue, 30 Sep 2025 06:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 21:59:07.51946
- Title: A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning
- Title(参考訳): 機械学習を用いた糖尿病リスク予測における特徴選択のためのコプラに基づく教師付きフィルタ
- Authors: Agnideep Aich, Md Monzur Murshed, Amanda Mayeaux, Sameera Hewage,
- Abstract要約: 本稿では,計算効率のよい教師付きフィルタ手法を提案する。
CDCデータセットでは,提案手法が最も高速なセレクタであり,特徴空間を約52%削減した。
両データセット全体で、Gumbel-upper-tailDependency coefficient selectorは臨床上の一貫性と影響のある予測因子を一貫して同定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective feature selection is critical for building robust and interpretable predictive models, particularly in medical applications where identifying risk factors in the most extreme patient strata is essential. Traditional methods often focus on average associations, potentially overlooking predictors whose importance is concentrated in the tails of the data distribution. In this study, we introduce a novel, computationally efficient supervised filter method that leverages the Gumbel copula's upper-tail dependence coefficient to rank features based on their tendency to be simultaneously extreme with a positive outcome. We conducted a rigorous evaluation of this method against four standard baselines (Mutual Information, mRMR, ReliefF, and L1/Elastic-Net) using four distinct classifiers on two diabetes datasets: a large-scale public health survey (CDC, N=253,680) and a classic clinical benchmark (PIMA, N=768). Our analysis included comprehensive statistical tests, permutation importance, and robustness checks. On the CDC dataset, our method was the fastest selector and reduced the feature space by approximately 52% while maintaining predictive performance statistically indistinguishable from a model using all features. On the PIMA dataset, our method's feature ranking yielded the single best-performing model, achieving the highest ROC-AUC of all tested configurations. Across both datasets, the Gumbel-upper-tail dependence coefficient selector consistently identified clinically coherent and impactful predictors. We conclude that feature selection via upper-tail dependence is a powerful, efficient, and interpretable new tool for developing risk models in public health and clinical medicine.
- Abstract(参考訳): 効果的な特徴選択は、堅牢で解釈可能な予測モデルを構築するために重要であり、特に最も極端な患者層におけるリスク要因を特定する医学的応用が不可欠である。
従来の手法では、平均的な関連性に注目し、データ分布の尾に集中している予測者を見落としていることが多い。
本研究では,Gumbel copula の上尾依存性係数を利用した,計算効率の良い教師付きフィルタ手法を提案する。
大規模公衆衛生調査 (CDC, N=253,680) と, 古典的臨床ベンチマーク (PIMA, N=768) を用いて, 4つの基準基準線 (Mutual Information, mRMR, ReliefF, L1/Elastic-Net) に対する厳密な評価を行った。
分析対象は,包括的統計検査,置換の重要性,頑健性検査であった。
CDCデータセット上では,提案手法は最も高速なセレクタであり,全ての特徴を用いたモデルと統計的に区別不能な予測性能を維持しつつ,特徴空間を約52%削減した。
PIMAデータセットでは,提案手法の特徴ランキングが1つの最良性能モデルとなり,全テスト構成で最高のROC-AUCが達成された。
両データセット全体で、Gumbel-upper-tailDependency coefficient selectorは臨床上の一貫性と影響のある予測因子を一貫して同定した。
以上の結果から, 上肢依存による特徴選択は, 公衆衛生・臨床医療におけるリスクモデル開発のための強力な, 効率的, 解釈可能な新しいツールであることが示唆された。
関連論文リスト
- CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction [0.0]
本研究では,マイノリティクラスにおけるデータ生成時の依存構造を保存するコプラに基づくデータ拡張について検討した。
XGBoostとA2コプラオーバーサンプリングを組み合わせることで、精度が4.6%、精度が15.6%、リコールが20.4%、F1スコアが18.2%、AUCが25.5%向上した。
この研究は、データ拡張にA2コプラを初めて使用したことで知られており、SMOTE技術に代わるものとして機能している。
論文 参考訳(メタデータ) (2025-06-18T22:21:40Z) - Predicting Diabetes Using Machine Learning: A Comparative Study of Classifiers [0.0]
糖尿病は世界中で重要な健康上の課題であり、腎臓病、視力喪失、心臓病などの深刻な合併症に寄与している。
本研究は,従来のML技術と高度なアンサンブル手法の両方を活用する,革新的な糖尿病予測フレームワークを提案する。
我々のアプローチの中心は、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)レイヤを組み合わせたハイブリッドアーキテクチャであるDNetの開発である。
論文 参考訳(メタデータ) (2025-05-11T16:14:31Z) - From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis [47.23780364438969]
本稿では,CGMデータの生成基盤モデルであるGluFormerについて紹介する。
GluFormerは、異なる民族や年齢、5つの国、8つのCGMデバイス、多様な病態状態にまたがる19の外部コホートに一般化する。
CGMデータと12年間のフォローアップを持つ580人の成人の縦断的研究において、GluFormerは血液HbA1C%よりも糖尿病を効果的に発症するリスクが高い個人を特定する。
論文 参考訳(メタデータ) (2024-08-20T13:19:06Z) - A data balancing approach towards design of an expert system for Heart Disease Prediction [0.9895793818721335]
心臓病は深刻な世界的な健康問題で、毎年何百万人もの命がかかっています。
本稿では,決定木(DT),ランダムフォレスト(RF),線形判別分析,エクストラツリーブースト,アダブーストという5つの機械学習手法を用いた。
ランダムフォレストと決定木モデルの精度は99.83%だった。
論文 参考訳(メタデータ) (2024-07-26T08:56:13Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Secure and Privacy-Preserving Automated Machine Learning Operations into
End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring
System for Diabetes Mellitus Prediction [0.5825410941577593]
本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。
提案システムはブロックチェーンによって支えられ、異なる病院の患者からリスクファクターデータの密集したビューを得る。
提案システムでは,最も正確なランダム林モデルを用いて,数値実験と比較解析を行った。
論文 参考訳(メタデータ) (2022-11-13T13:57:14Z) - Building Brains: Subvolume Recombination for Data Augmentation in Large
Vessel Occlusion Detection [56.67577446132946]
この戦略をデータから学ぶためには、標準的なディープラーニングベースのモデルに対して、大規模なトレーニングデータセットが必要である。
そこで本研究では, 異なる患者から血管木セグメントを組換えることで, 人工的なトレーニングサンプルを生成する方法を提案する。
拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。
論文 参考訳(メタデータ) (2022-05-05T10:31:57Z) - Development of a dynamic type 2 diabetes risk prediction tool: a UK
Biobank study [0.8620335948752806]
英国バイオバンクデータセットの301機能を用いて10年間の2型糖尿病リスクスコアを算出した。
Cox比例ハザードモデルは、同じ特徴を使ってトレーニングされたDeepSurvモデルをわずかに上回った。
このツールは、2型糖尿病のリスクのある患者の臨床スクリーニングや患者のエンパワーメントの促進に使用できる。
論文 参考訳(メタデータ) (2021-04-20T16:37:26Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Short Term Blood Glucose Prediction based on Continuous Glucose
Monitoring Data [53.01543207478818]
本研究では,デジタル意思決定支援ツールの入力として連続グルコースモニタリング(Continuous Glucose Monitoring, CGM)データを利用する方法について検討する。
短時間の血液グルコース (STBG) 予測において, リカレントニューラルネットワーク (Recurrent Neural Networks, RNN) をどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2020-02-06T16:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。