論文の概要: Does BERT Pretrained on Clinical Notes Reveal Sensitive Data?
- arxiv url: http://arxiv.org/abs/2104.07762v1
- Date: Thu, 15 Apr 2021 20:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:40:24.130077
- Title: Does BERT Pretrained on Clinical Notes Reveal Sensitive Data?
- Title(参考訳): BERTは臨床ノートに事前訓練されるか?
- Authors: Eric Lehman, Sarthak Jain, Karl Pichotta, Yoav Goldberg, Byron C.
Wallace
- Abstract要約: 我々は、トレーニングされたBERTからPersonal Health Informationを復元するためのアプローチのバッテリーを設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
- 参考スコア(独自算出の注目度): 70.3631443249802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformers pretrained over clinical notes from Electronic Health
Records (EHR) have afforded substantial gains in performance on predictive
clinical tasks. The cost of training such models (and the necessity of data
access to do so) coupled with their utility motivates parameter sharing, i.e.,
the release of pretrained models such as ClinicalBERT. While most efforts have
used deidentified EHR, many researchers have access to large sets of sensitive,
non-deidentified EHR with which they might train a BERT model (or similar).
Would it be safe to release the weights of such a model if they did? In this
work, we design a battery of approaches intended to recover Personal Health
Information (PHI) from a trained BERT. Specifically, we attempt to recover
patient names and conditions with which they are associated. We find that
simple probing methods are not able to meaningfully extract sensitive
information from BERT trained over the MIMIC-III corpus of EHR. However, more
sophisticated "attacks" may succeed in doing so: To facilitate such research,
we make our experimental setup and baseline probing models available at
https://github.com/elehman16/exposing_patient_data_release
- Abstract(参考訳): 電子健康記録 (ehr) から臨床記録を事前学習した大型変圧器は、予測的な臨床作業においてかなりの性能向上をもたらした。
このようなモデル(およびデータアクセスの必要性)をトレーニングするコストと、その実用性によって、パラメータ共有、すなわちclinicalbertのような事前トレーニング済みモデルのリリースが動機付けされる。
ほとんどの研究は、特定されたEHRを使用してきたが、多くの研究者は、BERTモデル(または同様のもの)をトレーニングする、機密性の高い非特定されたEHRの大規模なセットにアクセスすることができる。
もしそうなら、そのようなモデルの重みを解放することは安全だろうか?
本研究では、PHI(Personal Health Information)をトレーニングされたBERTから回収するためのアプローチの電池を設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
このような研究を容易にするために、実験的なセットアップとベースラインの探索モデルをhttps://github.com/elehman16/exposing_patient_data_releaseで利用可能にします。
関連論文リスト
- Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning [71.60858267608306]
医療基盤モデルはバックドア攻撃の影響を受けやすい。
本研究は,素早い学習期間中に医療基盤モデルにバックドアを埋め込む方法を紹介する。
我々の手法であるBAPLeは、ノイズトリガを調整するために最小限のデータサブセットしか必要とせず、テキストは下流のタスクにプロンプトする。
論文 参考訳(メタデータ) (2024-08-14T10:18:42Z) - Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models [6.506937003687058]
スタンフォード大学の6,739人の患者の電子健康記録(EHRs)から構造化されたデータを含む新しいデータセット EHRSHOT を公表した。
第2に,257万症例のERHデータに基づいて事前訓練した141Mパラメータ臨床基盤モデルであるCLMBR-T-baseの重みを公表した。
第3に、15の臨床的予測タスクを定義し、サンプル効率やタスク適応などの利点に基づく基礎モデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-07-05T05:24:59Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Pre-training transformer-based framework on large-scale pediatric claims
data for downstream population-specific tasks [3.1580072841682734]
本研究は、小児科のクレームデータセット全体をトレーニングする一般的な事前学習モデルであるClaim Pre-Training(Claim-PT)フレームワークを提案する。
効果的な知識伝達はタスク対応微調整段階を通じて完了する。
我々は100万人以上の患者記録を持つ実世界のクレームデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-06-24T15:25:41Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - EVA: Generating Longitudinal Electronic Health Records Using Conditional
Variational Autoencoders [34.22731849545798]
離散的な EHR の出会いと出会いの特徴を合成するための EHR Variational Autoencoder (EVA) を提案する。
EVAは現実的なシーケンスを生成でき、患者間の個人差を考慮し、特定の疾患条件で条件付けできる。
250,000人以上の患者を含む大規模な現実世界のEHRリポジトリの方法の有用性を評価します。
論文 参考訳(メタデータ) (2020-12-18T02:37:49Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。