論文の概要: A Hybrid Machine Learning Approach for Synthetic Data Generation with Post Hoc Calibration for Clinical Tabular Datasets
- arxiv url: http://arxiv.org/abs/2510.10513v2
- Date: Thu, 16 Oct 2025 09:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.085166
- Title: A Hybrid Machine Learning Approach for Synthetic Data Generation with Post Hoc Calibration for Clinical Tabular Datasets
- Title(参考訳): ポストホック校正による合成データ生成のためのハイブリッド機械学習アプローチ
- Authors: Md Ibrahim Shikder Mahin, Md Shamsul Arefin, Md Tanvir Hasan,
- Abstract要約: 医療研究と開発は、データ不足と厳格なプライバシー規制のために重大な障害に直面している。
患者プライバシを保護しながら、実際のデータ統計をエミュレートする人工データセットを作成します。
このスケーラブルでプライバシ保護のアプローチは、最先端の手法と一致し、医療における共同配布の忠実性のための新しいベンチマークを設定します。
- 参考スコア(独自算出の注目度): 0.9940728137241215
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Healthcare research and development face significant obstacles due to data scarcity and stringent privacy regulations, such as HIPAA and the GDPR, restricting access to essential real-world medical data. These limitations impede innovation, delay robust AI model creation, and hinder advancements in patient-centered care. Synthetic data generation offers a transformative solution by producing artificial datasets that emulate real data statistics while safeguarding patient privacy. We introduce a novel hybrid framework for high-fidelity healthcare data synthesis integrating five augmentation methods: noise injection, interpolation, Gaussian Mixture Model (GMM) sampling, Conditional Variational Autoencoder (CVAE) sampling, and SMOTE, combined via a reinforcement learning-based dynamic weight selection mechanism. Its key innovations include advanced calibration techniques -- moment matching, full histogram matching, soft and adaptive soft histogram matching, and iterative refinement -- that align marginal distributions and preserve joint feature dependencies. Evaluated on the Breast Cancer Wisconsin (UCI Repository) and Khulna Medical College cardiology datasets, our calibrated hybrid achieves Wasserstein distances as low as 0.001 and Kolmogorov-Smirnov statistics around 0.01, demonstrating near-zero marginal discrepancy. Pairwise trend scores surpass 90%, and Nearest Neighbor Adversarial Accuracy approaches 50%, confirming robust privacy protection. Downstream classifiers trained on synthetic data achieve up to 94% accuracy and F1 scores above 93%, comparable to models trained on real data. This scalable, privacy-preserving approach matches state-of-the-art methods, sets new benchmarks for joint-distribution fidelity in healthcare, and supports sensitive AI applications.
- Abstract(参考訳): 医療研究と開発は、データ不足とHIPAAやGDPRのような厳格なプライバシー規制によって大きな障害に直面し、本質的な現実世界の医療データへのアクセスを制限している。
これらの制限はイノベーションを阻害し、堅牢なAIモデル作成を遅らせ、患者中心のケアの進歩を妨げる。
合成データ生成は、患者のプライバシを保護しながら、実際のデータ統計をエミュレートする人工データセットを作成することによって、変革的なソリューションを提供する。
ノイズ注入,補間,ガウス混合モデル(GMM)サンプリング,条件変分オートエンコーダ(CVAE)サンプリング,SMOTEの5つの拡張手法を統合した,高忠実度医療データ合成のための新しいハイブリッドフレームワークを提案する。
その鍵となるイノベーションは、モーメントマッチング、フルヒストグラムマッチング、ソフトで適応的なソフトヒストグラムマッチング、反復的な洗練といった高度なキャリブレーション技術で、限界分布を整合させ、関節機能依存を保ちます。
乳がんウィスコンシン州 (UCI Repository) とクルナ医科大学 (Khulna Medical College) の心臓科学データセットで評価され、我々の校正されたハイブリッドは、ワッサーシュタイン距離を0.001とコルモゴロフ=スミルノフ統計の約0.01で達成し、ほぼゼロの縁のずれを示す。
Pairwiseのトレンドスコアは90%を超え、Nearest Neighbor Adversarial Accuracyは50%に近づき、堅牢なプライバシー保護を確認している。
合成データに基づいてトレーニングされた下流分類器は、最大で94%の精度を実現し、F1スコアは93%を超え、実際のデータでトレーニングされたモデルに匹敵する。
このスケーラブルでプライバシ保護のアプローチは最先端の手法と一致し、医療における共同配布の信頼性のための新しいベンチマークを設定し、機密性の高いAIアプリケーションをサポートする。
関連論文リスト
- impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - A Robust Pipeline for Differentially Private Federated Learning on Imbalanced Clinical Data using SMOTETomek and FedProx [0.0]
Federated Learning (FL)は、共同健康研究のための画期的なアプローチである。
FLは、差分プライバシー(DP)と組み合わせて正式なセキュリティ保証を提供する
プライバシーユーティリティフロンティアで最適な運用領域が特定された。
論文 参考訳(メタデータ) (2025-08-06T20:47:50Z) - Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Attention-Based Synthetic Data Generation for Calibration-Enhanced Survival Analysis: A Case Study for Chronic Kidney Disease Using Electronic Health Records [1.7769033811751995]
Masked Clinical Modelling (MCM)は、高忠実度合成データセットを生成するための注目ベースのフレームワークである。
MCMは、サバイバルモデル校正を強化しながら、ハザード比などの重要な臨床的洞察を保っている。
論文 参考訳(メタデータ) (2025-03-08T06:58:33Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Fairness-Aware Data Augmentation for Cardiac MRI using Text-Conditioned Diffusion Models [1.6581402323174208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。