論文の概要: TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation
- arxiv url: http://arxiv.org/abs/2504.17613v1
- Date: Thu, 24 Apr 2025 14:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.410507
- Title: TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation
- Title(参考訳): TarDiff: 電子健康記録時系列生成のためのターゲット指向拡散誘導
- Authors: Bowen Deng, Chang Xu, Hao Li, Yuhao Huang, Min Hou, Jiang Bian,
- Abstract要約: 時系列生成は臨床機械学習モデルの進歩に不可欠である。
観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。
タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
- 参考スコア(独自算出の注目度): 26.116599951658454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic Electronic Health Record (EHR) time-series generation is crucial for advancing clinical machine learning models, as it helps address data scarcity by providing more training data. However, most existing approaches focus primarily on replicating statistical distributions and temporal dependencies of real-world data. We argue that fidelity to observed data alone does not guarantee better model performance, as common patterns may dominate, limiting the representation of rare but important conditions. This highlights the need for generate synthetic samples to improve performance of specific clinical models to fulfill their target outcomes. To address this, we propose TarDiff, a novel target-oriented diffusion framework that integrates task-specific influence guidance into the synthetic data generation process. Unlike conventional approaches that mimic training data distributions, TarDiff optimizes synthetic samples by quantifying their expected contribution to improving downstream model performance through influence functions. Specifically, we measure the reduction in task-specific loss induced by synthetic samples and embed this influence gradient into the reverse diffusion process, thereby steering the generation towards utility-optimized data. Evaluated on six publicly available EHR datasets, TarDiff achieves state-of-the-art performance, outperforming existing methods by up to 20.4% in AUPRC and 18.4% in AUROC. Our results demonstrate that TarDiff not only preserves temporal fidelity but also enhances downstream model performance, offering a robust solution to data scarcity and class imbalance in healthcare analytics.
- Abstract(参考訳): EHR(Synthetic Electronic Health Record)の時系列生成は、より多くのトレーニングデータを提供することでデータの不足に対応するため、臨床機械学習モデルの進歩に不可欠である。
しかし、既存のほとんどのアプローチは、主に実世界のデータの統計分布と時間的依存関係の複製に焦点を当てている。
観測データのみに対する忠実さは、一般的なパターンが支配的になり、稀だが重要な条件の表現が制限されるため、モデル性能の向上を保証するものではない、と我々は主張する。
このことは、特定の臨床モデルの性能を改善し、目的とする結果を達成するために、合成サンプルを作成する必要性を強調している。
そこで本研究では,タスク固有のインフルエンスガイダンスを合成データ生成プロセスに統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
トレーニングデータ分布を模倣する従来のアプローチとは異なり、TarDiffは、影響関数による下流モデルの性能向上への期待する貢献を定量化することで、合成サンプルを最適化する。
具体的には, 合成試料によるタスク固有損失の低減を計測し, この影響勾配を逆拡散過程に埋め込むことにより, 実用最適化データに向けて生成を操る。
公開されている6つのEHRデータセットに基づいて評価され、TarDiffは最先端のパフォーマンスを達成し、AUPRCで最大20.4%、AUROCで最大18.4%の既存手法を上回っている。
以上の結果から,TarDiffは時間的忠実さを保ちながら,下流モデルの性能も向上し,医療分析におけるデータ不足とクラス不均衡に対する堅牢な解決策を提供することが示された。
関連論文リスト
- Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data [6.318463500874778]
本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。
我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。
我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
論文 参考訳(メタデータ) (2025-04-15T21:17:39Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - Predicting Extubation Failure in Intensive Care: The Development of a Novel, End-to-End Actionable and Interpretable Prediction System [0.0]
集中治療における排他的障害の予測は、複雑なデータと不正確な予測の重大な結果のために困難である。
機械学習は、臨床的な意思決定を改善することを約束するが、時間的患者の軌跡やモデル解釈可能性を考慮するのに失敗することが多い。
本研究では, 時相モデリング手法を用いて, エクスキュベーション故障の予測システムを構築することを目的とした。
論文 参考訳(メタデータ) (2024-11-27T22:19:47Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。