論文の概要: Handling Extreme Class Imbalance: Using GANs in Data Augmentation for Suicide Prediction
- arxiv url: http://arxiv.org/abs/2510.17661v1
- Date: Mon, 20 Oct 2025 15:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.504264
- Title: Handling Extreme Class Imbalance: Using GANs in Data Augmentation for Suicide Prediction
- Title(参考訳): 極端クラス不均衡の処理:データ強化におけるGANを用いた自殺予測
- Authors: Vaishnavi Visweswaraiah, Tanvi Banerjee, William Romine,
- Abstract要約: 十分な正のサンプルを持つ実データはまれであり、極端なクラス不均衡を引き起こす。
我々は機械学習(ML)を利用して、Geneversarative Adrial Networks(GAN)のようなモデルとディープラーニング(DL)技術を構築しました。
GANは自殺防止モデリングを支援するために合成データを生成する上で重要な役割を果たした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suicide prediction is the key for prevention, but real data with sufficient positive samples is rare and causes extreme class imbalance. We utilized machine learning (ML) to build the model and deep learning (DL) techniques, like Generative Adversarial Networks (GAN), to generate synthetic data samples to enhance the dataset. The initial dataset contained 656 samples, with only four positive cases, prompting the need for data augmentation. A variety of machine learning models, ranging from interpretable data models to black box algorithmic models, were used. On real test data, Logistic Regression (LR) achieved a weighted precision of 0.99, a weighted recall of 0.85, and a weighted F1 score of 0.91; Random Forest (RF) showed 0.98, 0.99, and 0.99, respectively; and Support Vector Machine (SVM) achieved 0.99, 0.76, and 0.86. LR and SVM correctly identified one suicide attempt case (sensitivity:1.0) and misclassified LR(20) and SVM (31) non-attempts as attempts (specificity: 0.85 & 0.76, respectively). RF identified 0 suicide attempt cases (sensitivity: 0.0) with 0 false positives (specificity: 1.0). These results highlight the models' effectiveness, with GAN playing a key role in generating synthetic data to support suicide prevention modeling efforts.
- Abstract(参考訳): 自殺予測は予防の鍵であるが、十分な正のサンプルを持つ実際のデータはまれであり、極端な階級不均衡を引き起こす。
機械学習(ML)を用いて、GAN(Generative Adversarial Networks)のようなモデルとディープラーニング(DL)技術を構築し、データセットを強化するために合成データサンプルを生成しました。
最初のデータセットには656のサンプルが含まれており、4つの陽性ケースしか存在せず、データ拡張の必要性が示唆された。
解釈可能なデータモデルからブラックボックスアルゴリズムモデルまで、さまざまな機械学習モデルが使用された。
実際のテストデータでは、ロジスティック回帰(LR)は重み付き精度0.99、重み付きリコール0.85、重み付きF1スコア0.91、ランダムフォレスト(RF)はそれぞれ0.98、0.99、0.99、サポートベクターマシン(SVM)は0.99、0.76、0.86を記録した。
LRとSVMは、自殺未遂の1例(感度:1.0)と未分類のLR(20)とSVM(31)を試行(それぞれ0.85と0.76)として正しく同定した。
RFは自殺未遂例0例(感度:0.0)と偽陽性例0例(特異性:1.0。
これらの結果は,GANが自殺防止モデリングを支援するために合成データを生成する上で重要な役割を担っていることから,モデルの有効性を浮き彫りにしている。
関連論文リスト
- Enhanced Predictive Modeling for Hazardous Near-Earth Object Detection: A Comparative Analysis of Advanced Resampling Strategies and Machine Learning Algorithms in Planetary Risk Assessment [0.0]
本研究では,二元分類フレームワークによる有害地球近傍天体(NEO)の予測のための機械学習モデルの性能評価を行った。
RFC と GBC はともに 0.987 と 0.896 の印象的な F2 スコアで最高の性能を発揮した。
論文 参考訳(メタデータ) (2025-08-20T22:50:00Z) - Differentiated Thyroid Cancer Recurrence Classification Using Machine Learning Models and Bayesian Neural Networks with Varying Priors: A SHAP-Based Interpretation of the Best Performing Model [0.0]
甲状腺癌のDTC再発は主要な公衆衛生上の問題である。
本研究は, 383名の患者を対象としたデータセットを用いて, DTC再分類のための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-25T06:31:31Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Enhancing IoT Cyber Attack Detection in the Presence of Highly Imbalanced Data [0.0]
本研究では、ハイブリッドサンプリング技術を用いて、IoT領域のデータ不均衡検出精度を向上させる。
サイバー攻撃の分類に関して,複数の機械学習モデルの性能を評価する。
全体として、この研究は、ハイブリッドサンプリングの価値と堅牢なモデルと機能選択を組み合わせることで、IoTセキュリティを著しく改善することを示している。
論文 参考訳(メタデータ) (2025-05-15T14:02:48Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Data-Driven Machine Learning Approaches for Predicting In-Hospital Sepsis Mortality [0.0]
セプシスはアメリカ合衆国と世界中で多くの死者を負う重篤な状態である。
機械学習を用いたこれまでの研究では、特徴選択とモデル解釈可能性に制限があった。
本研究は,院内敗血症死亡率を予測するための,解釈可能かつ正確な機械学習モデルを開発することを目的とした。
論文 参考訳(メタデータ) (2024-08-03T00:28:25Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - On the explainability of hospitalization prediction on a large COVID-19
patient dataset [45.82374977939355]
我々は、新型コロナウイルス陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発した。
高いデータアンバランスにもかかわらず、モデルは平均精度0.96-0.98 (0.75-0.85)、リコール0.96-0.98 (0.74-0.85)、F_score097-0.98 (0.79-0.83)に達する。
論文 参考訳(メタデータ) (2021-10-28T10:23:38Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。