論文の概要: Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction
- arxiv url: http://arxiv.org/abs/2405.19864v1
- Date: Thu, 30 May 2024 09:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:09:01.785772
- Title: Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction
- Title(参考訳): 早期疾患発症予測におけるデータセットシフト問題に対するアウト・オブ・ディストリビューション・リジェクション・オプション法
- Authors: Taisei Tosaki, Eiichiro Uchino, Ryosuke Kojima, Yohei Mineharu, Mikio Arita, Nobuyuki Miyai, Yoshinori Tamada, Tatsuya Mikami, Koichi Murashita, Shigeyuki Nakaji, Yasushi Okuno,
- Abstract要約: 本稿では,データセットのシフト効果を低減させるために,予測(ODROP)のアウト・オブ・ディストリビューション・リジェクションオプションを提案する。
ODROPは、OOD検出モデルを統合して、予測フェーズからOODデータを阻止する。
本研究は、OOD検出を実際の健康・医療データに適用し、疾患予測モデルの精度と信頼性を大幅に向上させる可能性を実証した最初のものである。
- 参考スコア(独自算出の注目度): 2.109347212067322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is increasingly used to predict lifestyle-related disease onset using health and medical data. However, the prediction effectiveness is hindered by dataset shift, which involves discrepancies in data distribution between the training and testing datasets, misclassifying out-of-distribution (OOD) data. To diminish dataset shift effects, this paper proposes the out-of-distribution reject option for prediction (ODROP), which integrates OOD detection models to preclude OOD data from the prediction phase. We investigated the efficacy of five OOD detection methods (variational autoencoder, neural network ensemble std, neural network ensemble epistemic, neural network energy, and neural network gaussian mixture based energy measurement) across two datasets, the Hirosaki and Wakayama health checkup data, in the context of three disease onset prediction tasks: diabetes, dyslipidemia, and hypertension. To evaluate the ODROP method, we trained disease onset prediction models and OOD detection models on Hirosaki data and used AUROC-rejection curve plots from Wakayama data. The variational autoencoder method showed superior stability and magnitude of improvement in Area Under the Receiver Operating Curve (AUROC) in five cases: AUROC in the Wakayama data was improved from 0.80 to 0.90 at a 31.1% rejection rate for diabetes onset and from 0.70 to 0.76 at a 34% rejection rate for dyslipidemia. We categorized dataset shifts into two types using SHAP clustering - those that considerably affect predictions and those that do not. We expect that this classification will help standardize measuring instruments. This study is the first to apply OOD detection to actual health and medical data, demonstrating its potential to substantially improve the accuracy and reliability of disease prediction models amidst dataset shift.
- Abstract(参考訳): 機械学習は、健康データや医療データを使って生活習慣病の発症を予測するのにますます使われている。
しかし、予測の有効性はデータセットシフトによって妨げられ、トレーニングとテストデータセット間のデータの分散が相違し、OOD(out-of-distribution)データが誤って分類される。
本稿では,OOD検出モデルを統合し,OODデータを予測フェーズから排除するODROP(Out-of-distriion reject option for Prediction)を提案する。
糖尿病, ジスリピド血症, 高血圧の3つの発症予測タスクの文脈において, OOD検出法(変量自己エンコーダ, ニューラルネットワークアンサンブルstd, ニューラルネットワークアンサンブル, ニューラルネットワークエネルギー, ニューラルネットワークガウス混合エネルギー測定)の有効性を検討した。
ODROP法を評価するために,広崎データを用いた発症予測モデルとOOD検出モデルを訓練し,和歌山データからAURLO-rejection curve plotを用いた。
AUROCは糖尿病発症率31.1%で0.80から0.90に改善し, ジスリピド血症の34%で0.70から0.76に改善した。
SHAPクラスタリングを使って、データセットのシフトを2つのタイプに分類しました。
この分類は測定器の標準化に役立つと期待している。
本研究は、OOD検出を実際の健康・医療データに適用し、データセットシフト中の疾患予測モデルの精度と信頼性を大幅に向上させる可能性を実証した最初のものである。
関連論文リスト
- SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。
既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。
限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:47:36Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Treatment Outcome Prediction for Intracerebral Hemorrhage via Generative
Prognostic Model with Imaging and Tabular Data [18.87414111429906]
脳内出血は2番目に一般的で致命的な脳梗塞である。
医学的進歩にもかかわらず、ICHの治療効果を予測することは依然として課題である。
モデルは、非ランダム化制御試験から収集された観測データに基づいて訓練される。
論文 参考訳(メタデータ) (2023-07-24T14:57:40Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - A Machine Learning Model for Predicting, Diagnosing, and Mitigating
Health Disparities in Hospital Readmission [0.0]
本稿では,データ中のバイアスの検出と緩和とモデル予測が可能な機械学習パイプラインを提案する。
提案手法の有効性を,精度と公正度の測定値を用いて評価した。
論文 参考訳(メタデータ) (2022-06-13T16:07:25Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Generative Model to Synthesize EEG Data for Epileptic Seizure
Prediction [3.8271082752302137]
本稿では, 合成脳波サンプルを生成するための深層畳み込み生成対向ネットワークを提案する。
我々は合成データ、すなわち1クラスSVMと、畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
以上の結果から,CESPモデルでは78.11%,88.21%,FPR0.27/h,0.14/hの感度が得られた。
論文 参考訳(メタデータ) (2020-12-01T12:00:36Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。