論文の概要: Membership Inference Attack Susceptibility of Clinical Language Models
- arxiv url: http://arxiv.org/abs/2104.08305v1
- Date: Fri, 16 Apr 2021 18:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:17:29.040848
- Title: Membership Inference Attack Susceptibility of Clinical Language Models
- Title(参考訳): 臨床言語モデルのメンバシップ推論攻撃感受性
- Authors: Abhyuday Jagannatha, Bhanu Pratap Singh Rawat, Hong Yu
- Abstract要約: BERTやGPT2といったモデルアーキテクチャにおける経験的プライバシリークを推定するために,メンバシップ推論攻撃を設計し,採用する。
以上の結果から,小型モデルは大規模モデルよりも経験的プライバシリークが低く,マスクされたLMは自己回帰型LMよりもリークが低いことがわかった。
- 参考スコア(独自算出の注目度): 9.823833005444493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Network (DNN) models have been shown to have high empirical
privacy leakages. Clinical language models (CLMs) trained on clinical data have
been used to improve performance in biomedical natural language processing
tasks. In this work, we investigate the risks of training-data leakage through
white-box or black-box access to CLMs. We design and employ membership
inference attacks to estimate the empirical privacy leaks for model
architectures like BERT and GPT2. We show that membership inference attacks on
CLMs lead to non-trivial privacy leakages of up to 7%. Our results show that
smaller models have lower empirical privacy leakages than larger ones, and
masked LMs have lower leakages than auto-regressive LMs. We further show that
differentially private CLMs can have improved model utility on clinical domain
while ensuring low empirical privacy leakage. Lastly, we also study the effects
of group-level membership inference and disease rarity on CLM privacy leakages.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルは、経験的なプライバシリークが高いことが示されている。
臨床データに基づいて訓練された臨床言語モデル(CLM)は、バイオメディカル自然言語処理タスクのパフォーマンス向上に使用されてきた。
本研究では,CLMへのホワイトボックスアクセスやブラックボックスアクセスによるトレーニングデータ漏洩のリスクについて検討する。
BERTやGPT2といったモデルアーキテクチャにおける経験的プライバシリークを推定するために,メンバシップ推論攻撃を設計し,採用する。
CLMに対するメンバシップ推論攻撃は、非自明なプライバシー漏洩を最大7%まで引き起こすことを示す。
以上の結果から,小型モデルは大規模モデルよりも経験的プライバシリークが低く,マスクされたLMは自己回帰型LMよりもリークが低いことがわかった。
さらに,臨床領域におけるモデルユーティリティの向上と,経験的プライバシリークの低減を両立できることを示す。
最後に,CLMのプライバシリークに対するグループレベルメンバーシップ推定と病原性の影響についても検討した。
関連論文リスト
- Generative LLM Powered Conversational AI Application for Personalized Risk Assessment: A Case Study in COVID-19 [6.367429891237191]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な能力を示している。
本研究は,ヒトとAIの会話をストリーミングすることで,LSMを用いた新たな疾病リスク評価手法を示す。
論文 参考訳(メタデータ) (2024-09-23T13:55:13Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - A Method to Facilitate Membership Inference Attacks in Deep Learning Models [5.724311218570013]
我々は,従来の技術よりも厳格に強力な新たな会員推論攻撃を実演する。
私たちの攻撃は、敵がすべてのトレーニングサンプルを確実に識別する権限を与えます。
これらのモデルは、共通の会員プライバシー監査の下で、増幅された会員リークを効果的に偽装できることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:33:42Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Quantifying Privacy Risks of Masked Language Models Using Membership
Inference Attacks [34.17535942437515]
我々は、確率比仮説テストに基づいて、より強力なメンバーシップ推論攻撃を考案する。
我々の攻撃は、事前の会員推測攻撃の記憶を0.66から0.90レベルへと改善することを示します。
論文 参考訳(メタデータ) (2022-03-08T08:50:34Z) - DP-UTIL: Comprehensive Utility Analysis of Differential Privacy in
Machine Learning [3.822543555265593]
差別化プライバシ(DP)は、プライバシー漏洩を理由とする厳格な形式主義として浮上している。
機械学習(ML)では、DPはトレーニング例の限定/開示に使用されている。
ディープニューラルネットワークの場合、勾配の摂動はプライバシリークを低くする。
論文 参考訳(メタデータ) (2021-12-24T08:40:28Z) - Differentially private federated deep learning for multi-site medical
image segmentation [56.30543374146002]
フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。
近年のイニシアチブでは、FLで訓練されたセグメンテーションモデルが、局所的に訓練されたモデルと同様のパフォーマンスを達成できることが示されている。
しかし、FLは完全なプライバシ保護技術ではなく、プライバシ中心の攻撃は秘密の患者データを開示することができる。
論文 参考訳(メタデータ) (2021-07-06T12:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。