論文の概要: Membership Inference Attack Susceptibility of Clinical Language Models
- arxiv url: http://arxiv.org/abs/2104.08305v1
- Date: Fri, 16 Apr 2021 18:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:17:29.040848
- Title: Membership Inference Attack Susceptibility of Clinical Language Models
- Title(参考訳): 臨床言語モデルのメンバシップ推論攻撃感受性
- Authors: Abhyuday Jagannatha, Bhanu Pratap Singh Rawat, Hong Yu
- Abstract要約: BERTやGPT2といったモデルアーキテクチャにおける経験的プライバシリークを推定するために,メンバシップ推論攻撃を設計し,採用する。
以上の結果から,小型モデルは大規模モデルよりも経験的プライバシリークが低く,マスクされたLMは自己回帰型LMよりもリークが低いことがわかった。
- 参考スコア(独自算出の注目度): 9.823833005444493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Network (DNN) models have been shown to have high empirical
privacy leakages. Clinical language models (CLMs) trained on clinical data have
been used to improve performance in biomedical natural language processing
tasks. In this work, we investigate the risks of training-data leakage through
white-box or black-box access to CLMs. We design and employ membership
inference attacks to estimate the empirical privacy leaks for model
architectures like BERT and GPT2. We show that membership inference attacks on
CLMs lead to non-trivial privacy leakages of up to 7%. Our results show that
smaller models have lower empirical privacy leakages than larger ones, and
masked LMs have lower leakages than auto-regressive LMs. We further show that
differentially private CLMs can have improved model utility on clinical domain
while ensuring low empirical privacy leakage. Lastly, we also study the effects
of group-level membership inference and disease rarity on CLM privacy leakages.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルは、経験的なプライバシリークが高いことが示されている。
臨床データに基づいて訓練された臨床言語モデル(CLM)は、バイオメディカル自然言語処理タスクのパフォーマンス向上に使用されてきた。
本研究では,CLMへのホワイトボックスアクセスやブラックボックスアクセスによるトレーニングデータ漏洩のリスクについて検討する。
BERTやGPT2といったモデルアーキテクチャにおける経験的プライバシリークを推定するために,メンバシップ推論攻撃を設計し,採用する。
CLMに対するメンバシップ推論攻撃は、非自明なプライバシー漏洩を最大7%まで引き起こすことを示す。
以上の結果から,小型モデルは大規模モデルよりも経験的プライバシリークが低く,マスクされたLMは自己回帰型LMよりもリークが低いことがわかった。
さらに,臨床領域におけるモデルユーティリティの向上と,経験的プライバシリークの低減を両立できることを示す。
最後に,CLMのプライバシリークに対するグループレベルメンバーシップ推定と病原性の影響についても検討した。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - P-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [41.86590537265852]
言語モデル(LM)のプライバシー漏洩を経験的かつ直感的に定量化するベンチマークであるP-Benchを提案する。
DPパラメータで保護されたデータのプライバシを保護し、測定する代わりに、P-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
P-Benchは、実証的な評価結果として、予め定義されたプライバシー目標を持つLMに対する既存のプライバシ攻撃を実行する。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - A Comprehensive Study of Privacy Risks in Curriculum Learning [25.57099711643689]
有意義な順序でデータで機械学習モデルをトレーニングすることは、トレーニングプロセスの加速に有効であることが証明されている。
重要な実現技術はカリキュラム学習(CL)であり、大きな成功を収め、画像やテキストの分類などの分野に展開されてきた。
しかし、CLが機械学習のプライバシーにどのように影響するかは不明だ。
論文 参考訳(メタデータ) (2023-10-16T07:06:38Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - On the Privacy Effect of Data Enhancement via the Lens of Memorization [20.27379983653372]
我々は,記憶化という新たな視点からプライバシを調査することを提案する。
機械学習モデルの3つの重要な特性間の関係について、非自明な知見を公表する。
論文 参考訳(メタデータ) (2022-08-17T13:02:17Z) - Quantifying Privacy Risks of Masked Language Models Using Membership
Inference Attacks [34.17535942437515]
我々は、確率比仮説テストに基づいて、より強力なメンバーシップ推論攻撃を考案する。
我々の攻撃は、事前の会員推測攻撃の記憶を0.66から0.90レベルへと改善することを示します。
論文 参考訳(メタデータ) (2022-03-08T08:50:34Z) - DP-UTIL: Comprehensive Utility Analysis of Differential Privacy in
Machine Learning [3.822543555265593]
差別化プライバシ(DP)は、プライバシー漏洩を理由とする厳格な形式主義として浮上している。
機械学習(ML)では、DPはトレーニング例の限定/開示に使用されている。
ディープニューラルネットワークの場合、勾配の摂動はプライバシリークを低くする。
論文 参考訳(メタデータ) (2021-12-24T08:40:28Z) - Differentially private federated deep learning for multi-site medical
image segmentation [56.30543374146002]
フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。
近年のイニシアチブでは、FLで訓練されたセグメンテーションモデルが、局所的に訓練されたモデルと同様のパフォーマンスを達成できることが示されている。
しかし、FLは完全なプライバシ保護技術ではなく、プライバシ中心の攻撃は秘密の患者データを開示することができる。
論文 参考訳(メタデータ) (2021-07-06T12:57:32Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。