論文の概要: De-identification is not always enough
- arxiv url: http://arxiv.org/abs/2402.00179v1
- Date: Wed, 31 Jan 2024 21:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:27:03.617187
- Title: De-identification is not always enough
- Title(参考訳): 身元不明は必ずしも十分ではない
- Authors: Atiquer Rahman Sarkar, Yao-Shun Chuang, Noman Mohammed, Xiaoqian Jiang
- Abstract要約: 本研究は, 実際の臨床記録の同定が, 会員推測攻撃から記録を保護していないことを示す。
合成されたノートが実際のデータのパフォーマンスと密接に一致する場合、それらは実際のデータと同じようなプライバシー上の懸念を示す。
- 参考スコア(独自算出の注目度): 9.292345527034348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For sharing privacy-sensitive data, de-identification is commonly regarded as
adequate for safeguarding privacy. Synthetic data is also being considered as a
privacy-preserving alternative. Recent successes with numerical and tabular
data generative models and the breakthroughs in large generative language
models raise the question of whether synthetically generated clinical notes
could be a viable alternative to real notes for research purposes. In this
work, we demonstrated that (i) de-identification of real clinical notes does
not protect records against a membership inference attack, (ii) proposed a
novel approach to generate synthetic clinical notes using the current
state-of-the-art large language models, (iii) evaluated the performance of the
synthetically generated notes in a clinical domain task, and (iv) proposed a
way to mount a membership inference attack where the target model is trained
with synthetic data. We observed that when synthetically generated notes
closely match the performance of real data, they also exhibit similar privacy
concerns to the real data. Whether other approaches to synthetically generated
clinical notes could offer better trade-offs and become a better alternative to
sensitive real notes warrants further investigation.
- Abstract(参考訳): プライバシーに敏感なデータを共有するためには、プライバシーの保護に適していると見なされる。
合成データは、プライバシ保護の代替案としても考えられている。
最近の数値および表データ生成モデルの成功と大規模な生成言語モデルのブレークスルーは、合成された臨床ノートが研究目的の実際のノートの代替となるかどうかという疑問を提起している。
この研究で、我々はそれを実証した。
(i)実際の臨床ノートの非同定は、会員推理攻撃に対して記録を保護しない。
(ii)最先端の大規模言語モデルを用いた合成臨床ノート作成のための新しい手法を提案する。
(iii)臨床領域課題における合成音符の性能評価と機能評価
(iv)ターゲットモデルが合成データで訓練されるメンバーシップ推論アタックをマウントする方法を提案した。
合成された音符が実データの性能と密接に一致した場合、実際のデータと同じようなプライバシー上の懸念が生じる。
合成した臨床ノートに対する他のアプローチがより良いトレードオフを提供し、センシティブなリアルノートの代替となるかどうかについては、さらなる調査が進められている。
関連論文リスト
- Synthetic4Health: Generating Annotated Synthetic Clinical Letters [6.822926897514792]
臨床手紙には機密情報が含まれているため、モデルトレーニング、医学研究、教育には臨床関連データセットが広く適用できない。
本研究は, 信頼性, 各種, 未同定の総合臨床書面を生成することを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:15:07Z) - Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-23T04:20:14Z) - Synthetic Data Outliers: Navigating Identity Disclosure [3.8811062755861956]
合成データのプライバシを外部から分析する。
本研究は, リンク攻撃による異常再同定が可能であり, 容易に達成できることを示唆する。
差分プライバシーなどの追加の保護は、データユーティリティを犠牲にして、再識別を防止することができる。
論文 参考訳(メタデータ) (2024-06-04T19:35:44Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes [11.106831545858656]
バイオメディカル文献から抽出した公開症例報告を用いて, 大規模臨床記録を合成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
論文 参考訳(メタデータ) (2023-09-01T04:01:20Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。