論文の概要: Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction
- arxiv url: http://arxiv.org/abs/2405.19864v2
- Date: Mon, 26 May 2025 10:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.421164
- Title: Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction
- Title(参考訳): 早期疾患発症予測におけるデータセットシフト問題に対するアウト・オブ・ディストリビューション・リジェクション・オプション法
- Authors: Taisei Tosaki, Eiichiro Uchino, Ryosuke Kojima, Yohei Mineharu, Yuji Okamoto, Mikio Arita, Nobuyuki Miyai, Yoshinori Tamada, Tatsuya Mikami, Koichi Murashita, Shigeyuki Nakaji, Yasushi Okuno,
- Abstract要約: 本稿では,リアルタイム設定におけるデータセットシフトを減少させるために,予測(ODROP)のアウト・オブ・ディストリビューション・リジェクションオプションを提案する。
我々は、糖尿病、ジスリピド血症、高血圧という3つの疾患発症予測タスクで、データセットシフトを伴う現実の健康チェックデータセットを2つ使用した。
5つのOOD手法では, 可変オートエンコーダ法によりAUROCの安定性が向上し, 改良が見られた。
- 参考スコア(独自算出の注目度): 3.382273111067512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is increasingly used to predict lifestyle-related disease onset using health and medical data. However, its predictive accuracy for use is often hindered by dataset shift, which refers to discrepancies in data distribution between the training and testing datasets. This issue leads to the misclassification of out-of-distribution (OOD) data. To diminish dataset shift in real-world settings, this paper proposes the out-of-distribution reject option for prediction (ODROP). This method integrates an OOD detection model to preclude OOD data from the prediction phase. We used two real-world health checkup datasets (Hirosaki and Wakayama) with dataset shift, across three disease onset prediction tasks: diabetes, dyslipidemia, and hypertension. Both components of ODROP method -- the OOD detection model and the prediction model -- were trained on the Hirosaki dataset. We assessed the effectiveness of ODROP on the Wakayama dataset using AUROC-rejection rate curve plot. In the five OOD detection approaches (the variational autoencoder, neural network ensemble std, neural network ensemble epistemic, neural network energy, and neural network gaussian mixture based energy measurement), the variational autoencoder method demonstrated notably higher stability and a greater improvement in AUROC. For example, in the Wakayama dataset, the AUROC for diabetes onset increased from 0.80 without ODROP to 0.90 at a 31.1% rejection rate, and for dyslipidemia, it improved from 0.70 without ODROP to 0.76 at a 34% rejection rate. In addition, we categorized dataset shifts into two types using SHAP clustering -- those that considerably affect predictions and those that do not. This study is the first to apply OOD detection to actual health and medical data, demonstrating its potential to substantially improve the accuracy and reliability of disease prediction models amidst dataset shift.
- Abstract(参考訳): 機械学習は、健康データや医療データを使って生活習慣病の発症を予測するのにますます使われている。
しかしながら、その使用の予測精度は、トレーニングとテストデータセット間のデータ分散の相違を示すデータセットシフトによって妨げられることが多い。
この問題は、アウト・オブ・ディストリビューション(OOD)データの誤分類につながる。
本稿では,現実の環境におけるデータセットのシフトを減らすために,予測のための分布外拒絶オプション(ODROP)を提案する。
この方法は、OOD検出モデルを統合して、予測フェーズからOODデータを阻止する。
本研究は,糖尿病,ジスリピド血症,高血圧の3つの発症予測タスクにおいて,現実の健康診断データセット(広崎,和歌山)をデータセットシフトで使用した。
ODROP法のコンポーネント – OOD検出モデルと予測モデル – はいずれも,弘前データセット上でトレーニングされた。
AUROC-rejection rate curve plot を用いた和歌山データセットにおけるODROPの有効性を検討した。
OOD検出の5つのアプローチ(変分オートエンコーダ、ニューラルネットワークアンサンブルstd、ニューラルネットワークアンサンブル疫学、ニューラルネットワークエネルギー、ニューラルネットワークガウス混合エネルギー測定)において、変分オートエンコーダ法はAUROCの安定性と改善を顕著に示す。
例えば、和歌山データセットでは、糖尿病発症のAUROCは31.1%の拒絶率で0.80から0.90に増加し、ジスリピド血症では0.70から34%の拒絶率で0.76に改善した。
さらに、データセットのシフトを、SHAPクラスタリングを使って2つのタイプに分類しました。
本研究は、OOD検出を実際の健康・医療データに適用し、データセットシフト中の疾患予測モデルの精度と信頼性を大幅に向上させる可能性を実証した最初のものである。
関連論文リスト
- SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。
既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。
限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:47:36Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Treatment Outcome Prediction for Intracerebral Hemorrhage via Generative
Prognostic Model with Imaging and Tabular Data [18.87414111429906]
脳内出血は2番目に一般的で致命的な脳梗塞である。
医学的進歩にもかかわらず、ICHの治療効果を予測することは依然として課題である。
モデルは、非ランダム化制御試験から収集された観測データに基づいて訓練される。
論文 参考訳(メタデータ) (2023-07-24T14:57:40Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - A Machine Learning Model for Predicting, Diagnosing, and Mitigating
Health Disparities in Hospital Readmission [0.0]
本稿では,データ中のバイアスの検出と緩和とモデル予測が可能な機械学習パイプラインを提案する。
提案手法の有効性を,精度と公正度の測定値を用いて評価した。
論文 参考訳(メタデータ) (2022-06-13T16:07:25Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Generative Model to Synthesize EEG Data for Epileptic Seizure
Prediction [3.8271082752302137]
本稿では, 合成脳波サンプルを生成するための深層畳み込み生成対向ネットワークを提案する。
我々は合成データ、すなわち1クラスSVMと、畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
以上の結果から,CESPモデルでは78.11%,88.21%,FPR0.27/h,0.14/hの感度が得られた。
論文 参考訳(メタデータ) (2020-12-01T12:00:36Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。