論文の概要: CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction
- arxiv url: http://arxiv.org/abs/2506.17326v1
- Date: Wed, 18 Jun 2025 22:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.352511
- Title: CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction
- Title(参考訳): CopulaSMOTE:糖尿病予測における不均衡分類のためのコプラに基づくオーバーサンプリング手法
- Authors: Agnideep Aich, Md Monzur Murshed, Sameera Hewage, Amanda Mayeaux,
- Abstract要約: 本研究では,マイノリティクラスにおけるデータ生成時の依存構造を保存するコプラに基づくデータ拡張について検討した。
XGBoostとA2コプラオーバーサンプリングを組み合わせることで、精度が4.6%、精度が15.6%、リコールが20.4%、F1スコアが18.2%、AUCが25.5%向上した。
この研究は、データ拡張にA2コプラを初めて使用したことで知られており、SMOTE技術に代わるものとして機能している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diabetes mellitus poses a significant health risk, as nearly 1 in 9 people are affected by it. Early detection can significantly lower this risk. Despite significant advancements in machine learning for identifying diabetic cases, results can still be influenced by the imbalanced nature of the data. To address this challenge, our study considered copula-based data augmentation, which preserves the dependency structure when generating data for the minority class and integrates it with machine learning (ML) techniques. We selected the Pima Indian dataset and generated data using A2 copula, then applied four machine learning algorithms: logistic regression, random forest, gradient boosting, and extreme gradient boosting. Our findings indicate that XGBoost combined with A2 copula oversampling achieved the best performance improving accuracy by 4.6%, precision by 15.6%, recall by 20.4%, F1-score by 18.2% and AUC by 25.5% compared to the standard SMOTE method. Furthermore, we statistically validated our results using the McNemar test. This research represents the first known use of A2 copulas for data augmentation and serves as an alternative to the SMOTE technique, highlighting the efficacy of copulas as a statistical method in machine learning applications.
- Abstract(参考訳): 糖尿病は、9人に1人近くが影響を受け、深刻な健康リスクをもたらす。
早期発見は、このリスクを著しく低下させる可能性がある。
糖尿病患者を特定するための機械学習の進歩にもかかわらず、結果はデータの不均衡な性質の影響を受け得る。
この課題に対処するため,本研究では,マイノリティクラスのデータを生成する際の依存構造を保存し,機械学習(ML)技術と統合するコプラに基づくデータ拡張について検討した。
我々は、ピマ・インディアンのデータセットを選択し、A2コプラを用いてデータを生成し、その後、ロジスティック回帰、ランダムフォレスト、勾配押し上げ、極端な勾配押し上げという4つの機械学習アルゴリズムを適用した。
以上の結果から,XGBoostとA2 copula oversamplingを組み合わせたXGBoostは,標準的なSMOTE法に比べて4.6%,精度15.6%,リコール20.4%,F1スコア18.2%,AUC25.5%の精度向上を実現した。
さらに,McNemar 試験を用いて統計的に検証した。
この研究は、データ拡張にA2コプラを初めて使用したことで知られており、機械学習アプリケーションにおける統計手法としてのコプラの有効性を強調したSMOTE手法の代替として機能している。
関連論文リスト
- Can Copulas Be Used for Feature Selection? A Machine Learning Study on Diabetes Risk Prediction [0.0]
本稿では,A2コプラのアッパーテール依存性係数(lambdaU)を用いた特徴選択フレームワークを提案する。
提案手法は,上尾の依存関係に基づいて5つの予測器を優先順位付けする。
これらの特徴は、4つの分類器にまたがるMIとGAの選択したサブセットにマッチする。
論文 参考訳(メタデータ) (2025-05-28T16:34:58Z) - A Novel Double Pruning method for Imbalanced Data using Information Entropy and Roulette Wheel Selection for Breast Cancer Diagnosis [2.8661021832561757]
SMOTEBoost法はデータセットのバランスをとるために合成データを生成するが、決定境界付近で重要な重複する領域を見落としてしまう可能性がある。
本稿では,SMOTEBoostの拡張版であるRE-SMOTEBoostを提案する。
情報エントロピーに基づくフィルタリング機構を組み込んで、ノイズや境界ケースを低減し、生成されたデータの品質を向上させる。
論文 参考訳(メタデータ) (2025-03-15T19:34:15Z) - Evaluating the Impact of Data Augmentation on Predictive Model Performance [0.05624791703748109]
本稿では,データ拡張手法と予測性能への影響を体系的に比較する。
21種類の増幅法のうち、SMOTE-ENNサンプリングが最も優れ、平均AUCが0.01向上した。
いくつかの拡張技術は、予測性能を著しく低下させたり、ランダムな確率に関する性能変動を増大させたりした。
論文 参考訳(メタデータ) (2024-12-03T03:03:04Z) - Comprehensive Methodology for Sample Augmentation in EEG Biomarker Studies for Alzheimers Risk Classification [0.0]
主な型であるアルツハイマー病(AD)は70%の症例である。
脳波測定はADリスクを識別する可能性を示しているが、信頼性の高い比較のために大規模なサンプルを取得することは困難である。
本研究では,信号処理,調和化,統計的手法を統合し,サンプルサイズを向上し,ADリスク分類の信頼性を向上させる。
論文 参考訳(メタデータ) (2024-11-20T10:31:02Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - AXIAL: Attention-based eXplainability for Interpretable Alzheimer's Localized Diagnosis using 2D CNNs on 3D MRI brain scans [43.06293430764841]
本研究では,3次元MRIを用いたアルツハイマー病診断の革新的手法を提案する。
提案手法では,2次元CNNがボリューム表現を抽出できるソフトアテンション機構を採用している。
ボクセルレベルの精度では、どの領域に注意が払われているかを同定し、これらの支配的な脳領域を同定する。
論文 参考訳(メタデータ) (2024-07-02T16:44:00Z) - Estimating Heterogeneous Treatment Effects by Combining Weak Instruments and Observational Data [44.31792000298105]
病状平均治療効果(CATE)の正確な予測は、パーソナライズされた医療とデジタルプラットフォーム分析において重要である。
我々は,信頼性の高いCATE推定を実現するために,IVと観測データを組み合わせた新しい手法を開発した。
論文 参考訳(メタデータ) (2024-06-10T16:40:55Z) - AUC-mixup: Deep AUC Maximization with Mixup [47.99058341229214]
AUCは正と負のペアで定義されており、ミックスアップデータ拡張をDAMに組み込むことが難しい。
我々はAUCマージン損失とソフトラベルを定式化に用いて、ミックスアップによって生成されたデータから効果的に学習する。
提案手法が不均衡なベンチマークと医用画像データセットに与える影響を実験的に検証した。
論文 参考訳(メタデータ) (2023-10-18T03:43:11Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Uncertainty-Aware Semi-supervised Method using Large Unlabelled and
Limited Labeled COVID-19 Data [14.530328267425638]
新型コロナウイルス自動検出のための限定ラベルデータ(SCLLD)を用いた半監視分類を提案する。
提案システムは,近江病院から収集した1万個のCTスキャンを用いて訓練する。
本手法は,ラベル付きトレーニングデータが少ない場合に,Convolutional Neural Network (CNN) の教師付きトレーニングを大幅に上回っている。
論文 参考訳(メタデータ) (2021-02-12T08:20:20Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。