論文の概要: A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning
- arxiv url: http://arxiv.org/abs/2505.22554v3
- Date: Sat, 04 Oct 2025 03:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.966433
- Title: A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning
- Title(参考訳): 機械学習を用いた糖尿病リスク予測における特徴選択のためのコプラに基づく教師付きフィルタ
- Authors: Agnideep Aich, Md Monzur Murshed, Sameera Hewage, Amanda Mayeaux,
- Abstract要約: 我々は,Gumbel copula上尾依存性係数(lambda_U$)を用いて特徴量をランク付けする計算効率の高い教師付きフィルタを提案する。
2つの糖尿病データセット上の4つの分類器で、Mutual Information、mRMR、ReliefF、および$L_1$ Elastic Netを比較した。
上肢依存によるコプラに基づく特徴選択は、公衆衛生・臨床医療におけるリスクモデル構築のための強力で効率的かつ解釈可能なアプローチである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective feature selection is vital for robust and interpretable medical prediction, especially for identifying risk factors concentrated in extreme patient strata. Standard methods emphasize average associations and may miss predictors whose importance lies in the tails of the distribution. We propose a computationally efficient supervised filter that ranks features using the Gumbel copula upper tail dependence coefficient ($\lambda_U$), prioritizing variables that are simultaneously extreme with the positive class. We benchmarked against Mutual Information, mRMR, ReliefF, and $L_1$ Elastic Net across four classifiers on two diabetes datasets: a large public health survey (CDC, N=253,680) and a clinical benchmark (PIMA, N=768). Evaluation included paired statistical tests, permutation importance, and robustness checks with label flips, feature noise, and missingness. On CDC, our method was the fastest selector and reduced the feature space by about 52% while retaining strong discrimination. Although using all 21 features yielded the highest AUC, our filter significantly outperformed Mutual Information and mRMR and was statistically indistinguishable from ReliefF. On PIMA, with only eight predictors, our ranking produced the numerically highest ROC AUC, and no significant differences were found versus strong baselines. Across both datasets, the upper tail criterion consistently identified clinically coherent, impactful predictors. We conclude that copula based feature selection via upper tail dependence is a powerful, efficient, and interpretable approach for building risk models in public health and clinical medicine.
- Abstract(参考訳): 効果的な特徴選択は、堅牢で解釈可能な医療予測、特に極端な患者層に集中する危険因子の同定に不可欠である。
標準手法は平均的な関連を強調し、分布の尾に重要な予測因子を見逃す可能性がある。
本稿では,Gumbel copula上尾依存性係数(\lambda_U$)を用いて特徴量をランク付けする計算効率の高い教師付きフィルタを提案する。
大規模公衆衛生調査(CDC, N=253,680)と臨床ベンチマーク(PIMA, N=768)の4つの糖尿病データセットの分類器を対象に,Mutual Information, mRMR, ReliefF, $L_1$ Elastic Netを比較検討した。
評価には、ペア統計テスト、置換の重要性、ラベルフリップによる堅牢性チェック、特徴雑音、欠如などが含まれていた。
CDCでは,本手法は最も高速なセレクタであり,特徴量を約52%削減し,高い差別性を維持した。
全21種類の特徴はAUCが最も高かったが,Mutual InformationとmRMRは有意な成績を示し,ReliefFと統計的に区別不能であった。
PIMAでは,8つの予測値のみで,数値的に高いROC AUCが生成され,強い基準値と有意差は認められなかった。
両データセット全体で、上尾の基準は一貫して臨床的に一貫性があり、影響のある予測因子を同定した。
上肢依存によるコプラに基づく特徴選択は、公衆衛生および臨床医療におけるリスクモデル構築のための強力で効率的かつ解釈可能なアプローチである、と結論付けた。
関連論文リスト
- CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction [0.0]
本研究では,マイノリティクラスにおけるデータ生成時の依存構造を保存するコプラに基づくデータ拡張について検討した。
XGBoostとA2コプラオーバーサンプリングを組み合わせることで、精度が4.6%、精度が15.6%、リコールが20.4%、F1スコアが18.2%、AUCが25.5%向上した。
この研究は、データ拡張にA2コプラを初めて使用したことで知られており、SMOTE技術に代わるものとして機能している。
論文 参考訳(メタデータ) (2025-06-18T22:21:40Z) - Predicting Diabetes Using Machine Learning: A Comparative Study of Classifiers [0.0]
糖尿病は世界中で重要な健康上の課題であり、腎臓病、視力喪失、心臓病などの深刻な合併症に寄与している。
本研究は,従来のML技術と高度なアンサンブル手法の両方を活用する,革新的な糖尿病予測フレームワークを提案する。
我々のアプローチの中心は、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)レイヤを組み合わせたハイブリッドアーキテクチャであるDNetの開発である。
論文 参考訳(メタデータ) (2025-05-11T16:14:31Z) - From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis [47.23780364438969]
本稿では,CGMデータの生成基盤モデルであるGluFormerについて紹介する。
GluFormerは、異なる民族や年齢、5つの国、8つのCGMデバイス、多様な病態状態にまたがる19の外部コホートに一般化する。
CGMデータと12年間のフォローアップを持つ580人の成人の縦断的研究において、GluFormerは血液HbA1C%よりも糖尿病を効果的に発症するリスクが高い個人を特定する。
論文 参考訳(メタデータ) (2024-08-20T13:19:06Z) - A data balancing approach towards design of an expert system for Heart Disease Prediction [0.9895793818721335]
心臓病は深刻な世界的な健康問題で、毎年何百万人もの命がかかっています。
本稿では,決定木(DT),ランダムフォレスト(RF),線形判別分析,エクストラツリーブースト,アダブーストという5つの機械学習手法を用いた。
ランダムフォレストと決定木モデルの精度は99.83%だった。
論文 参考訳(メタデータ) (2024-07-26T08:56:13Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Secure and Privacy-Preserving Automated Machine Learning Operations into
End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring
System for Diabetes Mellitus Prediction [0.5825410941577593]
本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。
提案システムはブロックチェーンによって支えられ、異なる病院の患者からリスクファクターデータの密集したビューを得る。
提案システムでは,最も正確なランダム林モデルを用いて,数値実験と比較解析を行った。
論文 参考訳(メタデータ) (2022-11-13T13:57:14Z) - Building Brains: Subvolume Recombination for Data Augmentation in Large
Vessel Occlusion Detection [56.67577446132946]
この戦略をデータから学ぶためには、標準的なディープラーニングベースのモデルに対して、大規模なトレーニングデータセットが必要である。
そこで本研究では, 異なる患者から血管木セグメントを組換えることで, 人工的なトレーニングサンプルを生成する方法を提案する。
拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。
論文 参考訳(メタデータ) (2022-05-05T10:31:57Z) - Development of a dynamic type 2 diabetes risk prediction tool: a UK
Biobank study [0.8620335948752806]
英国バイオバンクデータセットの301機能を用いて10年間の2型糖尿病リスクスコアを算出した。
Cox比例ハザードモデルは、同じ特徴を使ってトレーニングされたDeepSurvモデルをわずかに上回った。
このツールは、2型糖尿病のリスクのある患者の臨床スクリーニングや患者のエンパワーメントの促進に使用できる。
論文 参考訳(メタデータ) (2021-04-20T16:37:26Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Short Term Blood Glucose Prediction based on Continuous Glucose
Monitoring Data [53.01543207478818]
本研究では,デジタル意思決定支援ツールの入力として連続グルコースモニタリング(Continuous Glucose Monitoring, CGM)データを利用する方法について検討する。
短時間の血液グルコース (STBG) 予測において, リカレントニューラルネットワーク (Recurrent Neural Networks, RNN) をどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2020-02-06T16:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。