論文の概要: Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals
- arxiv url: http://arxiv.org/abs/2504.06987v1
- Date: Wed, 09 Apr 2025 15:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:16.165952
- Title: Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals
- Title(参考訳): ハイブリッドデータバランシングと対策によるメタボリックシンドロームの予測の強化
- Authors: Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma, Hassan Ghasemzadeh,
- Abstract要約: メタボリックシンドローム(メタボリックシンドローム、MetS)は、心臓血管疾患と2型糖尿病のリスクを著しく増大させる、関連性リスク因子の集団である。
世界的な流行にもかかわらず、クラス不均衡、データの不足、既存の研究における方法論上の矛盾などの問題により、MetSの正確な予測は依然として困難である。
- 参考スコア(独自算出の注目度): 6.937243101289335
- License:
- Abstract: Metabolic Syndrome (MetS) is a cluster of interrelated risk factors that significantly increases the risk of cardiovascular diseases and type 2 diabetes. Despite its global prevalence, accurate prediction of MetS remains challenging due to issues such as class imbalance, data scarcity, and methodological inconsistencies in existing studies. In this paper, we address these challenges by systematically evaluating and optimizing machine learning (ML) models for MetS prediction, leveraging advanced data balancing techniques and counterfactual analysis. Multiple ML models, including XGBoost, Random Forest, TabNet, etc., were trained and compared under various data balancing techniques such as random oversampling (ROS), SMOTE, ADASYN, and CTGAN. Additionally, we introduce MetaBoost, a novel hybrid framework that integrates SMOTE, ADASYN, and CTGAN, optimizing synthetic data generation through weighted averaging and iterative weight tuning to enhance the model's performance (achieving a 1.14% accuracy improvement over individual balancing techniques). A comprehensive counterfactual analysis is conducted to quantify feature-level changes required to shift individuals from high-risk to low-risk categories. The results indicate that blood glucose (50.3%) and triglycerides (46.7%) were the most frequently modified features, highlighting their clinical significance in MetS risk reduction. Additionally, probabilistic analysis shows elevated blood glucose (85.5% likelihood) and triglycerides (74.9% posterior probability) as the strongest predictors. This study not only advances the methodological rigor of MetS prediction but also provides actionable insights for clinicians and researchers, highlighting the potential of ML in mitigating the public health burden of metabolic syndrome.
- Abstract(参考訳): メタボリックシンドローム(メタボリックシンドローム、MetS)は、心臓血管疾患と2型糖尿病のリスクを著しく増大させる、関連性リスク因子の集団である。
世界的な流行にもかかわらず、クラス不均衡、データの不足、既存の研究における方法論上の矛盾などの問題により、MetSの正確な予測は依然として困難である。
本稿では,MetS予測のための機械学習モデル(ML)を体系的に評価し,最適化することにより,これらの課題に対処する。
XGBoost、Random Forest、TabNetなどを含む複数のMLモデルをトレーニングし、ランダムオーバーサンプリング(ROS)、SMOTE、ADASYN、CTGANといった様々なデータバランシング手法で比較した。
さらに、SMOTE、ADASYN、CTGANを統合した新しいハイブリッドフレームワークであるMetaBoostを導入し、重み付け平均化と反復重み付けによる合成データ生成を最適化し、モデルの性能を向上させる(個別のバランス技術よりも1.14%精度の向上)。
高リスクカテゴリから低リスクカテゴリへ個人を移行させるために必要な特徴レベルの変化を定量化するために、包括的なカウンターファクト分析を行う。
その結果、血糖(50.3%)とトリグリセリド(46.7%)が最も頻繁に修正された特徴であり、MetSのリスク低減における臨床的意義を強調した。
さらに確率論的分析では、最も強い予測因子として血糖値(85.5%)とトリグリセリド(74.9%)が上昇している。
本研究は,MetS予測の方法論的厳密さを推し進めるだけでなく,メタボリックシンドロームの公衆衛生負担軽減におけるMLの可能性について,臨床医や研究者に実用的な知見を提供する。
関連論文リスト
- Towards Transparent and Accurate Diabetes Prediction Using Machine Learning and Explainable Artificial Intelligence [8.224338294959699]
本研究では機械学習モデルとXAIツールを用いた糖尿病予測の枠組みを提案する。
アンサンブルモデルは精度が高く、テスト精度は92.50%、ROC-AUCは0.975であった。
その結果、XAIと組み合わせたMLは、医療システムで使用する正確で計算学的に透過的なツールを開発するための有望な手段であることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T00:42:43Z) - Prediction of Lung Metastasis from Hepatocellular Carcinoma using the SEER Database [0.9055332067000195]
肝細胞癌(HCC)は、がん関連死亡の原因である。
HCCにおける肺転移の予測モデルは、範囲と臨床応用性に限られている。
本研究では,Surveillance, Epidemiology, End Results (SEER)データベースのデータを用いて,エンドツーエンドの機械学習パイプラインの開発と検証を行う。
論文 参考訳(メタデータ) (2025-01-20T20:06:31Z) - Enhancing End Stage Renal Disease Outcome Prediction: A Multi-Sourced Data-Driven Approach [7.212939068975618]
10,326人のCKD患者のデータを利用して,2009年から2018年までの臨床とクレーム情報を組み合わせた。
24ヶ月の観測窓は早期検出と予測精度のバランスをとるのに最適であると同定された。
2021年のeGFR方程式は予測精度を改善し、特にアフリカ系アメリカ人の偏見を低減した。
論文 参考訳(メタデータ) (2024-10-02T03:21:01Z) - Comparative Analysis of LSTM Neural Networks and Traditional Machine Learning Models for Predicting Diabetes Patient Readmission [0.0]
本研究はDiabetes 130-US Hospitalsデータセットを用いて,各種機械学習モデルによる寛解患者の分析と予測を行う。
LightGBMは、XGBoostが首位だったのに対して、従来のモデルとしてはベストだった。
本研究は,予測医療モデリングにおいて,モデル選択,検証,解釈可能性が重要なステップであることを示す。
論文 参考訳(メタデータ) (2024-06-28T15:06:22Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Reviewing AI's Role in Non-Muscle-Invasive Bladder Cancer Recurrence Prediction [0.4369058206183195]
非筋浸潤性膀胱癌(NMIBC)は人体に重大な負担を課し、治療に最も費用がかかるがんの1つである。
NMIBCの再発を予測するための現在のツールは、しばしばリスクを過大評価し、精度が低いスコアシステムに依存している。
機械学習(ML)ベースの技術は、分子および臨床データを活用することでNMIBC再発を予測するための有望なアプローチとして登場した。
論文 参考訳(メタデータ) (2024-03-15T17:03:45Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。