論文の概要: Generative clinical time series models trained on moderate amounts of patient data are privacy preserving
- arxiv url: http://arxiv.org/abs/2602.10631v1
- Date: Wed, 11 Feb 2026 08:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.588139
- Title: Generative clinical time series models trained on moderate amounts of patient data are privacy preserving
- Title(参考訳): 適度な量の患者データに基づいて訓練された臨床時系列生成モデルは、プライバシ保護である
- Authors: Rustam Zhumagambetov, Niklas Giesa, Sebastian D. Boie, Stefan Haufe,
- Abstract要約: 私たちは、MIMIC-IVデータセットでトレーニングされた最先端の病院時系列モデルを評価するために、プライバシー攻撃のバッテリーを使用します。
以上の結果から,合成データ生成装置が十分に大規模なデータセットで訓練される場合,確立されたプライバシ攻撃は,生成した多変量臨床時系列に対して効果がないことが示された。
- 参考スコア(独自算出の注目度): 1.7728232380247864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharing medical data for machine learning model training purposes is often impossible due to the risk of disclosing identifying information about individual patients. Synthetic data produced by generative artificial intelligence (genAI) models trained on real data is often seen as one possible solution to comply with privacy regulations. While powerful genAI models for heterogeneous hospital time series have recently been introduced, such modeling does not guarantee privacy protection, as the generated data may still reveal identifying information about individuals in the models' training cohort. Applying established privacy mechanisms to generative time series models, however, proves challenging as post-hoc data anonymization through k-anonymization or similar techniques is limited, while model-centered privacy mechanisms that implement differential privacy (DP) may lead to unstable training, compromising the utility of generated data. Given these known limitations, privacy audits for generative time series models are currently indispensable regardless of the concrete privacy mechanisms applied to models and/or data. In this work, we use a battery of established privacy attacks to audit state-of-the-art hospital time series models, trained on the public MIMIC-IV dataset, with respect to privacy preservation. Furthermore, the eICU dataset was used to mount a privacy attack against the synthetic data generator trained on the MIMIC-IV dataset. Results show that established privacy attacks are ineffective against generated multivariate clinical time series when synthetic data generators are trained on large enough training datasets. Furthermore, we discuss how the use of existing DP mechanisms for these synthetic data generators would not bring desired improvement in privacy, but only a decrease in utility for machine learning prediction tasks.
- Abstract(参考訳): 機械学習モデルのトレーニング目的のために医療データを共有することは、個々の患者に関する情報を開示するリスクがあるため、しばしば不可能である。
生成人工知能(genAI)モデルによって生成された合成データは、実際のデータに基づいてトレーニングされ、しばしばプライバシー規制に従うための可能な解決策の1つと見なされる。
ヘテロジニアスな病院タイムシリーズのための強力なgenAIモデルが最近導入されたが、そのようなモデリングはプライバシ保護を保証していない。
しかし、生成時系列モデルに確立されたプライバシメカニズムを適用することは、k匿名化や類似技術によるポストホックデータ匿名化が制限される一方で、差分プライバシ(DP)を実装するモデル中心のプライバシメカニズムが不安定なトレーニングにつながり、生成されたデータの有用性を損なう可能性があることを証明している。
これらの既知の制限から、生成時系列モデルに対するプライバシー監査は、モデルやデータに適用される具体的なプライバシーメカニズムに関係なく、現在必須である。
本研究では,プライバシ保護に関する公開MIMIC-IVデータセットに基づいてトレーニングされた,最先端の病院時系列モデルを評価するために,確立されたプライバシ攻撃のバッテリを使用する。
さらに、eICUデータセットを使用して、MIMIC-IVデータセットでトレーニングされた合成データジェネレータに対して、プライバシ攻撃を行った。
以上の結果から,合成データ生成装置が十分なトレーニングデータセットでトレーニングされる場合,確立されたプライバシ攻撃は,生成した多変量臨床時系列に対して効果がないことが示された。
さらに、これらの合成データジェネレータに既存のDPメカニズムを用いることで、プライバシの向上が望まれるものではなく、機械学習予測タスクの実用性が低下することについても論じる。
関連論文リスト
- Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective [18.404146545866812]
合成データを生成するための生成機械学習モデルを訓練することは、データ共有におけるプライバシーを高めるための一般的なアプローチとなっている。
これは一般的に機密性の高い個人情報を処理するため、トレーニングされたモデルまたは生成された合成匿名性は、プライバシー上のリスクを生じさせる可能性がある。
有意義な評価は、基礎となる生成モデルの能力と特性を考慮し、最先端のプライバシ攻撃に基礎を置く必要がある、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-30T00:57:41Z) - Privacy-Preserving Model Transcription with Differentially Private Synthetic Distillation [67.76456940243294]
プライベートデータセットでトレーニングされたディープラーニングモデルは、プライバシー漏洩のリスクを引き起こす可能性がある。
本稿では,データフリーモデル-モデル変換ソリューションであるエンフェプライシ保存モデル転写について述べる。
論文 参考訳(メタデータ) (2026-01-27T01:51:35Z) - Controllable Synthetic Clinical Note Generation with Privacy Guarantees [7.1366477372157995]
本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
論文 参考訳(メタデータ) (2024-09-12T07:38:34Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-03T09:49:13Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。