論文の概要: Machine Learning Performance Analysis to Predict Stroke Based on
Imbalanced Medical Dataset
- arxiv url: http://arxiv.org/abs/2211.07652v1
- Date: Mon, 14 Nov 2022 17:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:34:25.303851
- Title: Machine Learning Performance Analysis to Predict Stroke Based on
Imbalanced Medical Dataset
- Title(参考訳): 不均衡な医療データに基づくストローク予測のための機械学習性能解析
- Authors: Yuru Jing
- Abstract要約: 脳卒中は、世界で2番目に重大な死因であり、ここ数年で主要な公衆衛生上の問題となっている。
医療データセットは、しばしばクラスラベルで不均衡であり、少数クラスの予測が不十分な傾向にある。
本稿では,脳卒中リスク要因について検討する。
不均衡脳卒中データセットにおけるマイノリティクラスの分類を改善するために, 4つの特徴的アプローチを適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cerebral stroke, the second most substantial cause of death universally, has
been a primary public health concern over the last few years. With the help of
machine learning techniques, early detection of various stroke alerts is
accessible, which can efficiently prevent or diminish the stroke. Medical
dataset, however, are frequently unbalanced in their class label, with a
tendency to poorly predict minority classes. In this paper, the potential risk
factors for stroke are investigated. Moreover, four distinctive approaches are
applied to improve the classification of the minority class in the imbalanced
stroke dataset, which are the ensemble weight voting classifier, the Synthetic
Minority Over-sampling Technique (SMOTE), Principal Component Analysis with
K-Means Clustering (PCA-Kmeans), Focal Loss with the Deep Neural Network (DNN)
and compare their performance. Through the analysis results, SMOTE and
PCA-Kmeans with DNN-Focal Loss work best for the limited size of a large severe
imbalanced dataset,which is 2-4 times outperform Kaggle work.
- Abstract(参考訳): 脳卒中は、世界で2番目に重大な死因であり、ここ数年で主要な公衆衛生上の問題となっている。
機械学習技術の助けを借りて、様々なストロークアラートの早期検出が可能であるため、ストロークを効果的に防止または低減することができる。
しかし、医療データセットは、しばしばクラスラベルで不均衡であり、少数クラスの予測が不十分な傾向にある。
本稿では,脳卒中リスク要因について検討する。
さらに、アンサンブル重み投票分類器、合成マイノリティオーバーサンプリング技術(smote)、主成分分析によるk-meansクラスタリング(pca-kmeans)、深層ニューラルネットワーク(dnn)による焦点損失、それらの性能の比較を含む、不均衡脳卒中データセットにおけるマイノリティクラスの分類を改善するために4つの異なるアプローチが適用されている。
解析結果から,DNN-Focal Lossを用いたSMOTEとPCA-Kmeansは,Kaggleの2~4倍の大規模な不均衡データセットの限られたサイズで動作する。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - MCRAGE: Synthetic Healthcare Data for Fairness [3.0089659534785853]
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
MCRAGEは、デノイング拡散確率モデル (Denoising Diffusion Probabilistic Model, CDDPM) を訓練し、未表現のクラスから高品質な合成EHRサンプルを生成する。
この合成データを使用して、既存の不均衡なデータセットを増大させ、その結果、すべてのクラスにまたがるよりバランスの取れた分散を実現します。
論文 参考訳(メタデータ) (2023-10-27T19:02:22Z) - Investigating Group Distributionally Robust Optimization for Deep
Imbalanced Learning: A Case Study of Binary Tabular Data Classification [0.44040106718326594]
不均衡学習のための群分散ロバスト最適化(gDRO)について検討した。
経験的リスク最小化法 (ERM) と古典的不均衡法との比較実験により, gDROの優れた性能が示された。
論文 参考訳(メタデータ) (2023-03-04T21:20:58Z) - Ischemic Stroke Lesion Prediction using imbalanced Temporal Deep
Gaussian Process (iTDGP) [2.649401887836554]
急性虚血性脳卒中(AIS)は、動脈閉塞により突然脳への血液供給が中断されたときに起こる。
CT(Computed Tomography Perfusion)画像から抽出した3次元計測マップをしきい値として評価する現在の標準AIS評価法は十分ではない。
ベースラインガウス時系列を用いてAIS予測を改善する確率モデルであるiTDGPを提案する。
論文 参考訳(メタデータ) (2022-11-16T17:32:29Z) - RoS-KD: A Robust Stochastic Knowledge Distillation Approach for Noisy
Medical Imaging [67.02500668641831]
ノイズの多いデータセットでトレーニングされたディープラーニングモデルは、ノイズタイプに敏感であり、目に見えないサンプルの一般化が少なくなる。
本稿では,複数の情報源からトピックを学習する概念を模倣したロバスト知識蒸留(RoS-KD)フレームワークを提案する。
RoS-KDは、訓練データの重複する部分集合について訓練された複数の教師から知識を蒸留することにより、滑らかで、よく表現された、堅牢な学生多様体を学習する。
論文 参考訳(メタデータ) (2022-10-15T22:32:20Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - A predictive analytics approach for stroke prediction using machine
learning and neural networks [4.984181486695979]
本稿では,脳卒中予測のための電子健康記録の諸因子を系統的に分析する。
年齢、心臓病、平均血糖値、高血圧が脳卒中を検出する最も重要な要因である。
これら4つの属性を用いたパーセプトロンニューラルネットワークは、最高精度と最低ミス率を提供する。
論文 参考訳(メタデータ) (2022-03-01T14:45:15Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。