論文の概要: Does BERT Pretrained on Clinical Notes Reveal Sensitive Data?
- arxiv url: http://arxiv.org/abs/2104.07762v1
- Date: Thu, 15 Apr 2021 20:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:40:24.130077
- Title: Does BERT Pretrained on Clinical Notes Reveal Sensitive Data?
- Title(参考訳): BERTは臨床ノートに事前訓練されるか?
- Authors: Eric Lehman, Sarthak Jain, Karl Pichotta, Yoav Goldberg, Byron C.
Wallace
- Abstract要約: 我々は、トレーニングされたBERTからPersonal Health Informationを復元するためのアプローチのバッテリーを設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
- 参考スコア(独自算出の注目度): 70.3631443249802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformers pretrained over clinical notes from Electronic Health
Records (EHR) have afforded substantial gains in performance on predictive
clinical tasks. The cost of training such models (and the necessity of data
access to do so) coupled with their utility motivates parameter sharing, i.e.,
the release of pretrained models such as ClinicalBERT. While most efforts have
used deidentified EHR, many researchers have access to large sets of sensitive,
non-deidentified EHR with which they might train a BERT model (or similar).
Would it be safe to release the weights of such a model if they did? In this
work, we design a battery of approaches intended to recover Personal Health
Information (PHI) from a trained BERT. Specifically, we attempt to recover
patient names and conditions with which they are associated. We find that
simple probing methods are not able to meaningfully extract sensitive
information from BERT trained over the MIMIC-III corpus of EHR. However, more
sophisticated "attacks" may succeed in doing so: To facilitate such research,
we make our experimental setup and baseline probing models available at
https://github.com/elehman16/exposing_patient_data_release
- Abstract(参考訳): 電子健康記録 (ehr) から臨床記録を事前学習した大型変圧器は、予測的な臨床作業においてかなりの性能向上をもたらした。
このようなモデル(およびデータアクセスの必要性)をトレーニングするコストと、その実用性によって、パラメータ共有、すなわちclinicalbertのような事前トレーニング済みモデルのリリースが動機付けされる。
ほとんどの研究は、特定されたEHRを使用してきたが、多くの研究者は、BERTモデル(または同様のもの)をトレーニングする、機密性の高い非特定されたEHRの大規模なセットにアクセスすることができる。
もしそうなら、そのようなモデルの重みを解放することは安全だろうか?
本研究では、PHI(Personal Health Information)をトレーニングされたBERTから回収するためのアプローチの電池を設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
このような研究を容易にするために、実験的なセットアップとベースラインの探索モデルをhttps://github.com/elehman16/exposing_patient_data_releaseで利用可能にします。
関連論文リスト
- How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - PRISM: Leveraging Prototype Patient Representations with
Feature-Missing-Aware Calibration for EHR Data Sparsity Mitigation [7.873181587802631]
PRISMは、類似した患者のプロトタイプ表現を通じて間接的にデータを伝達する新しい計算法である。
PRISMはさらに機能信頼モジュールで革新し、欠落したデータから各機能の信頼性を評価する。
MIMIC-IIIおよびMIMIC-IVデータセットを用いた実験は、PRISMが院内死亡率と30日間の読解タスクを予測する上で優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-08T07:01:38Z) - EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models [6.506937003687058]
スタンフォード大学の6,739人の患者の電子健康記録(EHRs)から構造化されたデータを含む新しいデータセット EHRSHOT を公表した。
第2に,257万症例のERHデータに基づいて事前訓練した141Mパラメータ臨床基盤モデルであるCLMBR-T-baseの重みを公表した。
第3に、15の臨床的予測タスクを定義し、サンプル効率やタスク適応などの利点に基づく基礎モデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-07-05T05:24:59Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Pre-training transformer-based framework on large-scale pediatric claims
data for downstream population-specific tasks [3.1580072841682734]
本研究は、小児科のクレームデータセット全体をトレーニングする一般的な事前学習モデルであるClaim Pre-Training(Claim-PT)フレームワークを提案する。
効果的な知識伝達はタスク対応微調整段階を通じて完了する。
我々は100万人以上の患者記録を持つ実世界のクレームデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-06-24T15:25:41Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - EVA: Generating Longitudinal Electronic Health Records Using Conditional
Variational Autoencoders [34.22731849545798]
離散的な EHR の出会いと出会いの特徴を合成するための EHR Variational Autoencoder (EVA) を提案する。
EVAは現実的なシーケンスを生成でき、患者間の個人差を考慮し、特定の疾患条件で条件付けできる。
250,000人以上の患者を含む大規模な現実世界のEHRリポジトリの方法の有用性を評価します。
論文 参考訳(メタデータ) (2020-12-18T02:37:49Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。