論文の概要: CK4Gen: A Knowledge Distillation Framework for Generating High-Utility Synthetic Survival Datasets in Healthcare
- arxiv url: http://arxiv.org/abs/2410.16872v1
- Date: Tue, 22 Oct 2024 10:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:04.535347
- Title: CK4Gen: A Knowledge Distillation Framework for Generating High-Utility Synthetic Survival Datasets in Healthcare
- Title(参考訳): CK4Gen:医療における高能率合成生存データセット生成のための知識蒸留フレームワーク
- Authors: Nicholas I-Hsien Kuo, Blanca Gallego, Louisa Jorm,
- Abstract要約: CK4Genは、Coxal Proportions(CoxPH)モデルからの知識蒸留を利用して、合成サバイバルデータセットを作成する新しいフレームワークである。
患者リスクプロファイルを個別に維持し、研究と教育のために現実的で信頼性の高いアウトプットを確実にする。
CK4Genは臨床条件にまたがってスケーラブルであり、コードは公開され、将来の研究者はそれを自身のデータセットに適用して、オープンな共有に適した合成バージョンを生成することができる。
- 参考スコア(独自算出の注目度): 1.7769033811751995
- License:
- Abstract: Access to real clinical data is heavily restricted by privacy regulations, hindering both healthcare research and education. These constraints slow progress in developing new treatments and data-driven healthcare solutions, while also limiting students' access to real-world datasets, leaving them without essential practical skills. High-utility synthetic datasets are therefore critical for advancing research and providing meaningful training material. However, current generative models -- such as Variational Autoencoders (VAEs) and Generative Adversarial Networks (GANs) -- produce surface-level realism at the expense of healthcare utility, blending distinct patient profiles and producing synthetic data of limited practical relevance. To overcome these limitations, we introduce CK4Gen (Cox Knowledge for Generation), a novel framework that leverages knowledge distillation from Cox Proportional Hazards (CoxPH) models to create synthetic survival datasets that preserve key clinical characteristics, including hazard ratios and survival curves. CK4Gen avoids the interpolation issues seen in VAEs and GANs by maintaining distinct patient risk profiles, ensuring realistic and reliable outputs for research and educational use. Validated across four benchmark datasets -- GBSG2, ACTG320, WHAS500, and FLChain -- CK4Gen outperforms competing techniques by better aligning real and synthetic data, enhancing survival model performance in both discrimination and calibration via data augmentation. As CK4Gen is scalable across clinical conditions, and with code to be made publicly available, future researchers can apply it to their own datasets to generate synthetic versions suitable for open sharing.
- Abstract(参考訳): 実際の臨床データへのアクセスはプライバシー規制によって厳しく制限されており、医療研究と教育の両方を妨げる。
これらの制約は、新しい治療やデータ駆動型医療ソリューションの開発の進展を遅らせると同時に、学生が現実世界のデータセットにアクセスすることを制限する。
したがって、高ユーティリティな合成データセットは研究を進め、有意義なトレーニング材料を提供するために重要である。
しかしながら、現在の生成モデル(VAEs)やGANs(Generative Adversarial Networks)など)は、医療ユーティリティを犠牲にして表面レベルのリアリズムを生成し、異なる患者プロファイルをブレンドし、限られた実用的関連性の合成データを生成する。
CK4Genは,Cox Proportional Hazards(CoxPH)モデルからの知識蒸留を利用して,ハザード比や生存曲線などの重要な臨床特性を保持する合成サバイバルデータセットを作成する新しいフレームワークである。
CK4Gen は、VAE や GAN に見られる補間問題を回避するため、患者リスクプロファイルを個別に維持し、研究や教育用途における現実的で信頼性の高いアウトプットを保証する。
4つのベンチマークデータセット(GBSG2、ACTG320、WHAS500、FLChain)で検証されたCK4Genは、実データと合成データの整合性を向上し、データ拡張による識別と校正の両方における生存モデルのパフォーマンスを向上することで、競合する技術を上回っている。
CK4Genは、臨床条件にまたがってスケーラブルであり、コードが公開されているため、将来の研究者は、それを自身のデータセットに適用して、オープン共有に適した合成バージョンを生成することができる。
関連論文リスト
- Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation [1.7769033811751995]
本稿では,マスク付き言語モデリングに触発されたMCM(Masked Clinical Modelling)について紹介する。
MCMはデータ合成と条件付きデータ拡張の両方のために設計されている。
我々は,このプロトタイプをCox Proportional Hazardsモデルを用いてWHAS500データセット上で評価する。
論文 参考訳(メタデータ) (2024-10-22T08:38:46Z) - KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation [0.0]
生成的ディープラーニングモデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
生成モデルは、プライバシーリスクであるセンシティブな機能を繰り返す合成データを生成する。
本稿では,知識グラフから知識グラフにドメインと規則的知識を注入する新しいモデルKIPPSを提案する。
論文 参考訳(メタデータ) (2024-09-25T19:50:03Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Privacy-Preserving Statistical Data Generation: Application to Sepsis Detection [13.445454471355214]
分類問題に適用可能な合成データ生成のための統計的アプローチを提案する。
Kernel density Estimator と K-Nearest Neighbors sample (KDE-KNN) によって生成された合成データの実用性とプライバシーへの影響を実世界の文脈で評価する。
論文 参考訳(メタデータ) (2024-04-25T14:26:53Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - The Health Gym: Synthetic Health-Related Datasets for the Development of
Reinforcement Learning Algorithms [2.032684842401705]
Health Gymは、機械学習アルゴリズムのプロトタイプ、評価、比較に自由にアクセス可能な、合成医療データセットのコレクションである。
このデータセットはGAN(Generative Adversarial Network)を用いて作成された。
合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。
論文 参考訳(メタデータ) (2022-03-12T07:28:02Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。