論文の概要: Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks
- arxiv url: http://arxiv.org/abs/2407.16166v1
- Date: Tue, 23 Jul 2024 04:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:45:39.552710
- Title: Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks
- Title(参考訳): リスクの批判的評価による大規模言語モデルによるイノベーション中のロバストプライバシー
- Authors: Yao-Shun Chuang, Atiquer Rahman Sarkar, Noman Mohammed, Xiaoqian Jiang,
- Abstract要約: 本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
- 参考スコア(独自算出の注目度): 8.506138767850773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines integrating EHRs and NLP with large language models (LLMs) to improve healthcare data management and patient care. It focuses on using advanced models to create secure, HIPAA-compliant synthetic patient notes for biomedical research. The study used de-identified and re-identified MIMIC III datasets with GPT-3.5, GPT-4, and Mistral 7B to generate synthetic notes. Text generation employed templates and keyword extraction for contextually relevant notes, with one-shot generation for comparison. Privacy assessment checked PHI occurrence, while text utility was tested using an ICD-9 coding task. Text quality was evaluated with ROUGE and cosine similarity metrics to measure semantic similarity with source notes. Analysis of PHI occurrence and text utility via the ICD-9 coding task showed that the keyword-based method had low risk and good performance. One-shot generation showed the highest PHI exposure and PHI co-occurrence, especially in geographic location and date categories. The Normalized One-shot method achieved the highest classification accuracy. Privacy analysis revealed a critical balance between data utility and privacy protection, influencing future data use and sharing. Re-identified data consistently outperformed de-identified data. This study demonstrates the effectiveness of keyword-based methods in generating privacy-protecting synthetic clinical notes that retain data usability, potentially transforming clinical data-sharing practices. The superior performance of re-identified over de-identified data suggests a shift towards methods that enhance utility and privacy by using dummy PHIs to perplex privacy attacks.
- Abstract(参考訳): 本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
この研究は、GPT-3.5、GPT-4、Mistral 7BによるMIMIC IIIデータセットの同定と再同定を用いて合成ノートを生成する。
テキスト生成にはテンプレートとキーワード抽出が用いられ、比較のためにワンショット生成が用いられた。
プライバシアセスメントはPHIの発生を確認し,テキストユーティリティはICD-9符号化タスクを用いてテストした。
テキストの品質をROUGEとcosine類似度指標を用いて評価し、ソースノートとのセマンティック類似度を測定した。
ICD-9符号化タスクによるPHIの発生とテキストの有用性の分析により,キーワードベースの手法はリスクが低く,高い性能を示した。
ワンショット生成ではPHI曝露率が最も高く,特に地理的位置と日付のカテゴリーではPHIの同時発生率が高かった。
正規化ワンショット法は最も高い分類精度を達成した。
プライバシー分析は、データユーティリティとプライバシ保護の間に重要なバランスを示し、将来のデータ使用と共有に影響を与える。
再識別されたデータは、継続的に非識別されたデータより優れていた。
本研究は,データ使用性を維持し,臨床データ共有の実践を変革する可能性のある,プライバシ保護型臨床ノート作成におけるキーワードベースの手法の有効性を実証する。
再識別されたデータよりも優れたパフォーマンスは、ダミーPHIを使用してプライバシー攻撃を複雑にすることで、ユーティリティとプライバシを高める方法への移行を示唆している。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records [1.9749268648715583]
本研究は、認知症患者の時系列合成医療記録を生成するために、現在最先端のGANベースの合成データ生成モデルと比較する。
本実験は,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T10:24:34Z) - De-identification is not always enough [9.292345527034348]
本研究は, 実際の臨床記録の同定が, 会員推測攻撃から記録を保護していないことを示す。
合成されたノートが実際のデータのパフォーマンスと密接に一致する場合、それらは実際のデータと同じようなプライバシー上の懸念を示す。
論文 参考訳(メタデータ) (2024-01-31T21:14:01Z) - Sensitive Data Detection with High-Throughput Machine Learning Models in
Electrical Health Records [15.982220037507169]
1996年健康保険ポータビリティ・アンド・アカウンタビリティ法(英: Health Insurance Portability and Accountability Act of 1996, HIPAA)は、厚生労働情報保護法(PHI)である。
この領域における課題の1つは、異なる分野にわたるデータにおけるPHIフィールドの不均一性である。
この可変性は、あるデータベースで動作しているルールベースの機密変数識別システムを別のデータベースでフェールさせる。
論文 参考訳(メタデータ) (2023-04-30T16:14:23Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - A Multifaceted Benchmarking of Synthetic Electronic Health Record
Generation Models [15.165156674288623]
人工健康データの重要な特徴を評価するために,一般化可能なベンチマークフレームワークを導入する。
その結果, 合成EHRデータの共有にはユーティリティ・プライバシ・トレードオフが存在することがわかった。
論文 参考訳(メタデータ) (2022-08-02T03:44:45Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。