Fugu-MT 論文翻訳(概要): A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning

論文の概要: A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning

arxiv url: http://arxiv.org/abs/2505.22554v3
Date: Sat, 04 Oct 2025 03:47:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:09.966433
Title: A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning
Title（参考訳）: 機械学習を用いた糖尿病リスク予測における特徴選択のためのコプラに基づく教師付きフィルタ
Authors: Agnideep Aich, Md Monzur Murshed, Sameera Hewage, Amanda Mayeaux,
Abstract要約: 我々は,Gumbel copula上尾依存性係数(lambda_U$)を用いて特徴量をランク付けする計算効率の高い教師付きフィルタを提案する。 2つの糖尿病データセット上の4つの分類器で、Mutual Information、mRMR、ReliefF、および$L_1$ Elastic Netを比較した。上肢依存によるコプラに基づく特徴選択は、公衆衛生・臨床医療におけるリスクモデル構築のための強力で効率的かつ解釈可能なアプローチである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective feature selection is vital for robust and interpretable medical prediction, especially for identifying risk factors concentrated in extreme patient strata. Standard methods emphasize average associations and may miss predictors whose importance lies in the tails of the distribution. We propose a computationally efficient supervised filter that ranks features using the Gumbel copula upper tail dependence coefficient ($\lambda_U$), prioritizing variables that are simultaneously extreme with the positive class. We benchmarked against Mutual Information, mRMR, ReliefF, and $L_1$ Elastic Net across four classifiers on two diabetes datasets: a large public health survey (CDC, N=253,680) and a clinical benchmark (PIMA, N=768). Evaluation included paired statistical tests, permutation importance, and robustness checks with label flips, feature noise, and missingness. On CDC, our method was the fastest selector and reduced the feature space by about 52% while retaining strong discrimination. Although using all 21 features yielded the highest AUC, our filter significantly outperformed Mutual Information and mRMR and was statistically indistinguishable from ReliefF. On PIMA, with only eight predictors, our ranking produced the numerically highest ROC AUC, and no significant differences were found versus strong baselines. Across both datasets, the upper tail criterion consistently identified clinically coherent, impactful predictors. We conclude that copula based feature selection via upper tail dependence is a powerful, efficient, and interpretable approach for building risk models in public health and clinical medicine.
Abstract（参考訳）: 効果的な特徴選択は、堅牢で解釈可能な医療予測、特に極端な患者層に集中する危険因子の同定に不可欠である。標準手法は平均的な関連を強調し、分布の尾に重要な予測因子を見逃す可能性がある。本稿では,Gumbel copula上尾依存性係数(\lambda_U$)を用いて特徴量をランク付けする計算効率の高い教師付きフィルタを提案する。大規模公衆衛生調査(CDC, N=253,680)と臨床ベンチマーク(PIMA, N=768)の4つの糖尿病データセットの分類器を対象に,Mutual Information, mRMR, ReliefF, $L_1$ Elastic Netを比較検討した。評価には、ペア統計テスト、置換の重要性、ラベルフリップによる堅牢性チェック、特徴雑音、欠如などが含まれていた。 CDCでは,本手法は最も高速なセレクタであり,特徴量を約52%削減し,高い差別性を維持した。全21種類の特徴はAUCが最も高かったが,Mutual InformationとmRMRは有意な成績を示し,ReliefFと統計的に区別不能であった。 PIMAでは,8つの予測値のみで,数値的に高いROC AUCが生成され,強い基準値と有意差は認められなかった。両データセット全体で、上尾の基準は一貫して臨床的に一貫性があり、影響のある予測因子を同定した。上肢依存によるコプラに基づく特徴選択は、公衆衛生および臨床医療におけるリスクモデル構築のための強力で効率的かつ解釈可能なアプローチである、と結論付けた。

関連論文リスト

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment [42.97456036889799]
古典的な放射能の特徴は、画像の外観と強度パターンを定量化するように設計されている。近年の適応放射能の研究では、DLを用いて放射能プール上の特徴量を予測する。本稿では,患者ごとにひとつのコンパクトな特徴セットを予測できる,患者固有の特徴セット選択フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-02T20:12:41Z)
ROOFS: RObust biOmarker Feature Selection [0.4065263202661619]
Roofsは、研究者が問題に適応したFSメソッドの選択を支援するために設計されたPythonパッケージである。肺がんにおける抗PD-(L)1免疫療法に対する抵抗性の予測因子の同定を目的としたPIONeeR臨床試験のデータに基づく屋根の有用性を実証した。
論文参考訳（メタデータ） (2026-01-08T17:41:07Z)
Assessing the Feasibility of Early Cancer Detection Using Routine Laboratory Data: An Evaluation of Machine Learning Approaches on an Imbalanced Dataset [0.02030567625639093]
犬における早期がん検出のためのアクセス可能なスクリーニングツールの開発は、獣医学における重要な課題である。本研究は,Golden Retriever Lifetime Studyコホートを用いたがんリスク分類の可能性を評価する。通常の検査データには統計的に検出可能ながんシグナルが存在するが、正常な老化やその他の炎症状態から臨床的に信頼性の高い識別を行うには弱く、確立されていないと結論付けている。
論文参考訳（メタデータ） (2025-10-23T04:52:42Z)
Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。特徴選択戦略は臨床環境に適応する必要がある。
論文参考訳（メタデータ） (2025-10-10T09:03:47Z)
CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction [0.0]
本研究では,マイノリティクラスにおけるデータ生成時の依存構造を保存するコプラに基づくデータ拡張について検討した。 XGBoostとA2コプラオーバーサンプリングを組み合わせることで、精度が4.6%、精度が15.6%、リコールが20.4%、F1スコアが18.2%、AUCが25.5%向上した。この研究は、データ拡張にA2コプラを初めて使用したことで知られており、SMOTE技術に代わるものとして機能している。
論文参考訳（メタデータ） (2025-06-18T22:21:40Z)
Predicting Diabetes Using Machine Learning: A Comparative Study of Classifiers [0.0]
糖尿病は世界中で重要な健康上の課題であり、腎臓病、視力喪失、心臓病などの深刻な合併症に寄与している。本研究は,従来のML技術と高度なアンサンブル手法の両方を活用する,革新的な糖尿病予測フレームワークを提案する。我々のアプローチの中心は、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)レイヤを組み合わせたハイブリッドアーキテクチャであるDNetの開発である。
論文参考訳（メタデータ） (2025-05-11T16:14:31Z)
From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis [47.23780364438969]
本稿では,CGMデータの生成基盤モデルであるGluFormerについて紹介する。 GluFormerは、異なる民族や年齢、5つの国、8つのCGMデバイス、多様な病態状態にまたがる19の外部コホートに一般化する。 CGMデータと12年間のフォローアップを持つ580人の成人の縦断的研究において、GluFormerは血液HbA1C%よりも糖尿病を効果的に発症するリスクが高い個人を特定する。
論文参考訳（メタデータ） (2024-08-20T13:19:06Z)
A data balancing approach towards design of an expert system for Heart Disease Prediction [0.9895793818721335]
心臓病は深刻な世界的な健康問題で、毎年何百万人もの命がかかっています。本稿では,決定木(DT),ランダムフォレスト(RF),線形判別分析,エクストラツリーブースト,アダブーストという5つの機械学習手法を用いた。ランダムフォレストと決定木モデルの精度は99.83%だった。
論文参考訳（メタデータ） (2024-07-26T08:56:13Z)
Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文参考訳（メタデータ） (2024-04-26T16:39:50Z)
A comparative study on feature selection for a risk prediction model for colorectal cancer [0.0]
この研究は大腸癌に焦点を当て、リスク予測モデルのパフォーマンスの観点からいくつかの特徴ランキングアルゴリズムを評価する。この研究で提案された視覚的アプローチにより、ニューラルネットワークベースのラッパーランキングが最も不安定であり、ランダムフォレストが最も安定である。
論文参考訳（メタデータ） (2024-02-07T22:14:14Z)
The Conditional Prediction Function: A Novel Technique to Control False Discovery Rate for Complex Models [0.0]
現状の機械学習予測モデルと組み合わせることができる条件付き予測関数(CPF)に基づくノックオフ統計を導入する。 CPF統計は、予測器と結果の間の非線形関係を捉えることができ、特徴間の相関も考慮できる。
論文参考訳（メタデータ） (2023-10-07T21:16:09Z)
Learning to diagnose cirrhosis from radiological and histological labels with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文参考訳（メタデータ） (2023-02-16T17:06:23Z)
Secure and Privacy-Preserving Automated Machine Learning Operations into End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring System for Diabetes Mellitus Prediction [0.5825410941577593]
本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。提案システムはブロックチェーンによって支えられ、異なる病院の患者からリスクファクターデータの密集したビューを得る。提案システムでは,最も正確なランダム林モデルを用いて,数値実験と比較解析を行った。
論文参考訳（メタデータ） (2022-11-13T13:57:14Z)
Building Brains: Subvolume Recombination for Data Augmentation in Large Vessel Occlusion Detection [56.67577446132946]
この戦略をデータから学ぶためには、標準的なディープラーニングベースのモデルに対して、大規模なトレーニングデータセットが必要である。そこで本研究では, 異なる患者から血管木セグメントを組換えることで, 人工的なトレーニングサンプルを生成する方法を提案する。拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。
論文参考訳（メタデータ） (2022-05-05T10:31:57Z)
Development of a dynamic type 2 diabetes risk prediction tool: a UK Biobank study [0.8620335948752806]
英国バイオバンクデータセットの301機能を用いて10年間の2型糖尿病リスクスコアを算出した。 Cox比例ハザードモデルは、同じ特徴を使ってトレーニングされたDeepSurvモデルをわずかに上回った。このツールは、2型糖尿病のリスクのある患者の臨床スクリーニングや患者のエンパワーメントの促進に使用できる。
論文参考訳（メタデータ） (2021-04-20T16:37:26Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文参考訳（メタデータ） (2021-03-07T03:10:32Z)
Federated Deep AUC Maximization for Heterogeneous Data with a Constant Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。 FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文参考訳（メタデータ） (2021-02-09T04:05:19Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Short Term Blood Glucose Prediction based on Continuous Glucose Monitoring Data [53.01543207478818]
本研究では,デジタル意思決定支援ツールの入力として連続グルコースモニタリング(Continuous Glucose Monitoring, CGM)データを利用する方法について検討する。短時間の血液グルコース (STBG) 予測において, リカレントニューラルネットワーク (Recurrent Neural Networks, RNN) をどのように利用できるかを検討する。
論文参考訳（メタデータ） (2020-02-06T16:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。