Fugu-MT 論文翻訳(概要): Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation

論文の概要: Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation

arxiv url: http://arxiv.org/abs/2410.16811v1
Date: Tue, 22 Oct 2024 08:38:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.94218
Title: Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation
Title（参考訳）: Masked Clinical Modelling: 人工的・拡張的生存データ生成のためのフレームワーク
Authors: Nicholas I-Hsien Kuo, Blanca Gallego, Louisa Jorm,
Abstract要約: 本稿では,マスク付き言語モデリングに触発されたMCM(Masked Clinical Modelling)について紹介する。 MCMはデータ合成と条件付きデータ拡張の両方のために設計されている。我々は,このプロトタイプをCox Proportional Hazardsモデルを用いてWHAS500データセット上で評価する。
参考スコア（独自算出の注目度）: 1.7769033811751995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Access to real clinical data is often restricted due to privacy obligations, creating significant barriers for healthcare research. Synthetic datasets provide a promising solution, enabling secure data sharing and model development. However, most existing approaches focus on data realism rather than utility -- ensuring that models trained on synthetic data yield clinically meaningful insights comparable to those trained on real data. In this paper, we present Masked Clinical Modelling (MCM), a framework inspired by masked language modelling, designed for both data synthesis and conditional data augmentation. We evaluate this prototype on the WHAS500 dataset using Cox Proportional Hazards models, focusing on the preservation of hazard ratios as key clinical metrics. Our results show that data generated using the MCM framework improves both discrimination and calibration in survival analysis, outperforming existing methods. MCM demonstrates strong potential to support survival data analysis and broader healthcare applications.
Abstract（参考訳）: 実際の臨床データへのアクセスは、しばしばプライバシー義務のために制限され、医療研究の重要な障壁となる。合成データセットは、セキュアなデータ共有とモデル開発を可能にする、有望なソリューションを提供する。しかし、既存のほとんどのアプローチはユーティリティではなくデータリアリズムに焦点を当てている -- 合成データでトレーニングされたモデルが、実際のデータでトレーニングされたモデルに匹敵する臨床的に有意義な洞察を得ることを保証する。本稿では,データ合成と条件付きデータ拡張の両方のために設計されたマスク付き言語モデリングに触発されたMasked Clinical Modelling (MCM)を提案する。我々は,このプロトタイプをCox Proportional Hazardsモデルを用いてWHAS500データセット上で評価し,主要な臨床指標としてハザード比の保存に着目した。以上の結果から,MCMフレームワークを用いて生成したデータは,生存分析における識別と校正の両面で向上し,既存手法よりも優れていたことが示唆された。 MCMは、生存データ分析と幅広い医療アプリケーションをサポートする強力な可能性を示している。

関連論文リスト

Improving Cardiac Risk Prediction Using Data Generation Techniques [37.94487163156369]
本研究は,実世界の観測と整合したリアルな臨床記録の合成のためのアーキテクチャを提案する。主な目的は、心的リスク予測モデルの性能を高めるため、利用可能なデータセットのサイズと多様性を高めることである。
論文参考訳（メタデータ） (2025-12-19T10:17:00Z)
Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文参考訳（メタデータ） (2025-10-24T15:56:40Z)
Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering [1.5020330976600738]
オープンソースのLarge Language Modelsを用いて高品質な合成医療データを生成するためのモジュラーフレームワークであるSynLLMを提案する。 SynLLMは糖尿病, 硬変, ストロークを含む3つの公的医療データセットで評価した。以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
論文参考訳（メタデータ） (2025-08-11T23:56:42Z)
Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文参考訳（メタデータ） (2025-05-30T14:42:02Z)
Attention-Based Synthetic Data Generation for Calibration-Enhanced Survival Analysis: A Case Study for Chronic Kidney Disease Using Electronic Health Records [1.7769033811751995]
Masked Clinical Modelling (MCM)は、高忠実度合成データセットを生成するための注目ベースのフレームワークである。 MCMは、サバイバルモデル校正を強化しながら、ハザード比などの重要な臨床的洞察を保っている。
論文参考訳（メタデータ） (2025-03-08T06:58:33Z)
CK4Gen: A Knowledge Distillation Framework for Generating High-Utility Synthetic Survival Datasets in Healthcare [1.7769033811751995]
CK4Genは、Coxal Proportions(CoxPH)モデルからの知識蒸留を利用して、合成サバイバルデータセットを作成する新しいフレームワークである。患者リスクプロファイルを個別に維持し、研究と教育のために現実的で信頼性の高いアウトプットを確実にする。 CK4Genは臨床条件にまたがってスケーラブルであり、コードは公開され、将来の研究者はそれを自身のデータセットに適用して、オープンな共有に適した合成バージョンを生成することができる。
論文参考訳（メタデータ） (2024-10-22T10:20:20Z)
Addressing Data Heterogeneity in Federated Learning of Cox Proportional Hazards Models [8.798959872821962]
本稿では,フェデレーションサバイバル分析の分野,特にCox Proportional Hazards(CoxPH)モデルについて概説する。本稿では,合成データセットと実世界のアプリケーション間のモデル精度を向上させるために,特徴ベースのクラスタリングを用いたFLアプローチを提案する。
論文参考訳（メタデータ） (2024-07-20T18:34:20Z)
Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文参考訳（メタデータ） (2024-03-13T16:17:09Z)
Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文参考訳（メタデータ） (2023-12-14T18:56:07Z)
TRIALSCOPE: A Unifying Causal Framework for Scaling Real-World Evidence Generation with Biomedical Language Models [22.046231408373522]
観測データから実世界の証拠を抽出する統合フレームワークであるTRIALSCOPEについて述べる。 TRIALSCOPEは実世界のデータの高品質な構造化を可能とし,マーキーがん検診に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-11-02T15:15:47Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-05T15:42:53Z)
MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文参考訳（メタデータ） (2023-10-04T01:36:30Z)
Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文参考訳（メタデータ） (2023-03-24T03:14:00Z)
Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文参考訳（メタデータ） (2020-12-10T13:56:00Z)
Self-Training with Improved Regularization for Sample-Efficient Chest X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文参考訳（メタデータ） (2020-05-03T02:36:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。