論文の概要: From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories
- arxiv url: http://arxiv.org/abs/2603.06720v1
- Date: Fri, 06 Mar 2026 00:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.90464
- Title: From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories
- Title(参考訳): 統計的忠実度から臨床整合性へ:患者軌道のスケーラブルな生成と監査
- Authors: Guanglin Zhou, Armin Catic, Motahare Shabestari, Matthew Young, Chaiquan Li, Katrina Poppe, Sebastiano Barbieri,
- Abstract要約: 臨床的に整合性を持たせるためのパイプラインを構築した。
実症例180,712例から合成患者18,071例を作成した。
プライバシーリスクの証拠は見つからず、メンバーシップのパフォーマンスはランダムな推測とは区別できない。
- 参考スコア(独自算出の注目度): 0.8261055975875736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Access to electronic health records (EHRs) for digital health research is often limited by privacy regulations and institutional barriers. Synthetic EHRs have been proposed as a way to enable safe and sovereign data sharing; however, existing methods may produce records that capture overall statistical properties of real data but present inconsistencies across clinical processes and observations. We developed an integrated pipeline to make synthetic patient trajectories clinically consistent through two synergistic steps: high-fidelity generation and scalable auditing. Using the MIMIC-IV database, we trained a knowledge-grounded generative model that represents nearly 32,000 distinct clinical events, including demographics, laboratory measurements, medications, procedures, and diagnoses, while enforcing structural integrity. To support clinical consistency at scale, we incorporated an automated auditing module leveraging large language models to filter out clinical inconsistencies (e.g., contraindicated medications) that escape probabilistic generation. We generated 18,071 synthetic patient records derived from a source cohort of 180,712 real patients. While synthetic clinical event probabilities demonstrated robust agreement (mean bias effectively 0.00) and high correlation (R2=0.99) with the real counterparts, review of a random sample of synthetic records (N=20) by three clinicians identified inconsistencies in 45-60% of them. Automated auditing reduced the difference between real and synthetic data (Cohen's effect size d between 0.59 and 1.60 before auditing, and between 0.18 and 0.67 after auditing). Downstream models trained on audited data matched or even exceeded real-data performance. We found no evidence of privacy risks, with membership inference performance indistinguishable from random guessing (F1-score=0.51).
- Abstract(参考訳): デジタルヘルス研究のための電子健康記録(EHR)へのアクセスは、プライバシー規制や制度上の障壁によって制限されることが多い。
安全かつ主権的なデータ共有を可能にする方法として合成 EHR が提案されているが、既存の方法では、実際のデータの全体的な統計的性質をキャプチャするが、臨床プロセスや観察に不整合がある記録を生成することができる。
我々は,高忠実度生成と拡張性監査という2つの相乗的ステップを通じて,患者軌道を臨床的に整合させる統合パイプラインを開発した。
MIMIC-IVデータベースを用いて, 人口統計, 実験室計測, 薬物, 処置, 診断など, 32,000件近い異なる臨床事象を表現し, 構造的整合性を保ちながら, 知識接地型生成モデルを訓練した。
大規模臨床の整合性を支援するために,大規模言語モデルを利用した自動監査モジュールを組み込んで,確率的生成から逃れる臨床不整合性(例えば,禁忌薬)を除去した。
実症例180,712例のソースコホートから合成された18,071例の患者記録を作成した。
総合臨床イベント確率は, 平均偏差0.00) と高相関(R2=0.99) を有意な一致を示したが, 3人の臨床医による無作為な合成記録のサンプル(N=20)を45~60%で同定した。
自動監査は実データと合成データの違いを減らした(コーエンの効果サイズdは監査前の0.59から1.60、監査後の0.18から0.67)。
監査されたデータに基づいてトレーニングされた下流モデルは、実データのパフォーマンスにマッチまたは超えました。
ランダムな推測とは区別できない(F1-score=0.51)ため,プライバシーリスクの証拠は見つからなかった。
関連論文リスト
- LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - Federated Proximal Optimization for Privacy-Preserving Heart Disease Prediction: A Controlled Simulation Study on Non-IID Clinical Data [1.620240963217448]
本稿では,UCI心疾患データセットに基づく心疾患予測のためのフェデレーション・プロキシ・オプティマイズ(FedProx)の総合シミュレーション研究について述べる。
我々はクリーブランドクリニックの4つの異種病院クライアントをシミュレートすることにより,現実的な非IIDデータ分割を生成する。
我々の結果は病院IT管理者に直接転送可能であり、プライバシー保護協調学習を実装しています。
論文 参考訳(メタデータ) (2026-01-23T21:18:08Z) - CoSMeTIC: Zero-Knowledge Computational Sparse Merkle Trees with Inclusion-Exclusion Proofs for Clinical Research [2.0497679299764355]
CoSMeTICはゼロ知識計算フレームワークであり、臨床研究において個々の参加者のデータに対する検証済みの包含と排他的証明を生成する。
我々は,CoSMeTICが統計的忠実性を維持しつつ,強力なプライバシー保証を実現することを実証した。
以上の結果から,CoSMeTICは大規模臨床研究において厳格なプライバシ保護による規制コンプライアンスを実現するための,スケーラブルで実用的な代替手段である可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-17T18:47:17Z) - One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training [45.49415063761575]
EndoRareは、単一の参照画像から多種多様な高忠実度病変を合成する、ワンショットでリトレーニング不要な生成フレームワークである。
われわれはこの枠組みを4つの稀な病理から検証した。
これらの結果は, コンピュータ支援診断と臨床教育の両方において, 希少なギャップを埋める実践的でデータ効率のよい方法を確立している。
論文 参考訳(メタデータ) (2025-12-30T15:07:09Z) - A Hybrid Machine Learning Approach for Synthetic Data Generation with Post Hoc Calibration for Clinical Tabular Datasets [0.9940728137241215]
医療研究と開発は、データ不足と厳格なプライバシー規制のために重大な障害に直面している。
患者プライバシを保護しながら、実際のデータ統計をエミュレートする人工データセットを作成します。
このスケーラブルでプライバシ保護のアプローチは、最先端の手法と一致し、医療における共同配布の忠実性のための新しいベンチマークを設定します。
論文 参考訳(メタデータ) (2025-10-12T09:23:43Z) - DualAlign: Generating Clinically Grounded Synthetic Data [9.87164447021602]
両アライメントによる統計的忠実度と臨床的妥当性を高めるフレームワークであるDualAlignを紹介する。
アルツハイマー病(AD)をケーススタディとして、DualAlignは文脈的症状レベルの文章を生成する。
LLaMA 3.1-8BモデルとDualAlign生成データと人間アノテーションデータの組み合わせを微調整すると、大幅な性能向上が得られる。
論文 参考訳(メタデータ) (2025-09-05T18:04:38Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Synthesize High-dimensional Longitudinal Electronic Health Records via
Hierarchical Autoregressive Language Model [40.473866438962034]
合成電子健康記録は、機械学習(ML)モデリングと統計解析のための実際のEHRの代替として機能することができる。
階層型自己回帰言語mOdel(HALO)を提案する。
論文 参考訳(メタデータ) (2023-04-04T23:53:34Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。