論文の概要: Controllable Synthetic Clinical Note Generation with Privacy Guarantees
- arxiv url: http://arxiv.org/abs/2409.07809v1
- Date: Thu, 12 Sep 2024 07:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:27:45.991078
- Title: Controllable Synthetic Clinical Note Generation with Privacy Guarantees
- Title(参考訳): プライバシ保証による可制御性臨床ノートの作成
- Authors: Tal Baumel, Andre Manoel, Daniel Jones, Shize Su, Huseyin Inan, Aaron, Bornstein, Robert Sim,
- Abstract要約: 本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
- 参考スコア(独自算出の注目度): 7.1366477372157995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of machine learning, domain-specific annotated data is an invaluable resource for training effective models. However, in the medical domain, this data often includes Personal Health Information (PHI), raising significant privacy concerns. The stringent regulations surrounding PHI limit the availability and sharing of medical datasets, which poses a substantial challenge for researchers and practitioners aiming to develop advanced machine learning models. In this paper, we introduce a novel method to "clone" datasets containing PHI. Our approach ensures that the cloned datasets retain the essential characteristics and utility of the original data without compromising patient privacy. By leveraging differential-privacy techniques and a novel fine-tuning task, our method produces datasets that are free from identifiable information while preserving the statistical properties necessary for model training. We conduct utility testing to evaluate the performance of machine learning models trained on the cloned datasets. The results demonstrate that our cloned datasets not only uphold privacy standards but also enhance model performance compared to those trained on traditional anonymized datasets. This work offers a viable solution for the ethical and effective utilization of sensitive medical data in machine learning, facilitating progress in medical research and the development of robust predictive models.
- Abstract(参考訳): 機械学習の分野では、ドメイン固有の注釈付きデータは効果的なモデルを訓練するための貴重なリソースである。
しかし、医療分野では、このデータはパーソナライズ・ヘルス・インフォメーション(PHI)を含むことが多く、重要なプライバシー上の懸念を提起する。
PHIを取り巻く厳格な規制により、医療データセットの可用性と共有が制限され、高度な機械学習モデルの開発を目指す研究者や実践者にとって大きな課題となる。
本稿では,PHIを含むデータセットをクローン化するための新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
差分プライバシ手法と新たな微調整タスクを活用することで,モデル学習に必要な統計的特性を保ちながら,識別可能な情報のないデータセットを生成する。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
その結果、クローン化されたデータセットは、プライバシ標準を遵守するだけでなく、従来の匿名データセットでトレーニングされたデータセットと比較してモデルパフォーマンスも向上することが示された。
この研究は、機械学習におけるセンシティブな医療データの倫理的・効果的な利用に有効なソリューションを提供し、医学研究の進展と堅牢な予測モデルの開発を促進する。
関連論文リスト
- An Efficient Contrastive Unimodal Pretraining Method for EHR Time Series Data [35.943089444017666]
本稿では,長期臨床経過データに適した比較事前学習法を提案する。
本モデルでは, 臨床医が患者の症状についてより深い知見を得られるように, 欠損測定をインプットする能力を示す。
論文 参考訳(メタデータ) (2024-10-11T19:05:25Z) - Remembering Everything Makes You Vulnerable: A Limelight on Machine Unlearning for Personalized Healthcare Sector [0.873811641236639]
この論文は、特にECGモニタリングの文脈において、パーソナライズされた医療モデルの脆弱性に対処することを目的としている。
本稿では,機械学習モデルに対する露出データポイントの影響を軽減するために,"Machine Unlearning" というアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-05T15:38:36Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - Anonymizing Data for Privacy-Preserving Federated Learning [3.3673553810697827]
我々は,フェデレートラーニングの文脈において,プライバシを提供するための最初の構文的アプローチを提案する。
当社のアプローチは,プライバシの保護レベルをサポートしながら,実用性やモデルの性能を最大化することを目的としている。
医療領域における2つの重要な課題について,100万人の患者の実世界電子健康データを用いて包括的実証評価を行った。
論文 参考訳(メタデータ) (2020-02-21T02:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。