論文の概要: Unintended Memorization and Timing Attacks in Named Entity Recognition
Models
- arxiv url: http://arxiv.org/abs/2211.02245v1
- Date: Fri, 4 Nov 2022 03:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:28:06.715124
- Title: Unintended Memorization and Timing Attacks in Named Entity Recognition
Models
- Title(参考訳): 名前付きエンティティ認識モデルにおける意図しない記憶とタイミング攻撃
- Authors: Rana Salal Ali and Benjamin Zi Hao Zhao and Hassan Jameel Asghar and
Tham Nguyen and Ian David Wood and Dali Kaafar
- Abstract要約: ユーザ文書中の機密情報を識別するためのブラックボックスサービスとして,NERモデルが利用可能である場合について検討する。
spaCyから事前訓練されたNERモデルを更新することにより、これらのモデルに対する2つの異なるメンバシップ攻撃を実演する。
- 参考スコア(独自算出の注目度): 5.404816271595691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named entity recognition models (NER), are widely used for identifying named
entities (e.g., individuals, locations, and other information) in text
documents. Machine learning based NER models are increasingly being applied in
privacy-sensitive applications that need automatic and scalable identification
of sensitive information to redact text for data sharing. In this paper, we
study the setting when NER models are available as a black-box service for
identifying sensitive information in user documents and show that these models
are vulnerable to membership inference on their training datasets. With updated
pre-trained NER models from spaCy, we demonstrate two distinct membership
attacks on these models. Our first attack capitalizes on unintended
memorization in the NER's underlying neural network, a phenomenon NNs are known
to be vulnerable to. Our second attack leverages a timing side-channel to
target NER models that maintain vocabularies constructed from the training
data. We show that different functional paths of words within the training
dataset in contrast to words not previously seen have measurable differences in
execution time. Revealing membership status of training samples has clear
privacy implications, e.g., in text redaction, sensitive words or phrases to be
found and removed, are at risk of being detected in the training dataset. Our
experimental evaluation includes the redaction of both password and health
data, presenting both security risks and privacy/regulatory issues. This is
exacerbated by results that show memorization with only a single phrase. We
achieved 70% AUC in our first attack on a text redaction use-case. We also show
overwhelming success in the timing attack with 99.23% AUC. Finally we discuss
potential mitigation approaches to realize the safe use of NER models in light
of the privacy and security implications of membership inference attacks.
- Abstract(参考訳): 名前付きエンティティ認識モデル(NER)は、文書中の名前付きエンティティ(個人、場所、その他の情報)を識別するために広く使われている。
機械学習ベースのNERモデルは、データ共有のためにテキストを再実行するために機密情報の自動的かつスケーラブルな識別を必要とするプライバシーに敏感なアプリケーションに、ますます適用されている。
本稿では,ユーザ文書中の機密情報を識別するためのブラックボックスサービスとしてNERモデルが利用可能である場合について検討し,これらのモデルがトレーニングデータセットのメンバシップ推定に脆弱であることを示す。
spaCyから事前訓練されたNERモデルを更新し、これらのモデルに対する2つの異なるメンバシップ攻撃を示す。
私たちの最初の攻撃は、nnが脆弱な現象であるnerの基盤となるニューラルネットワークの意図しない記憶に乗じる。
第2の攻撃は、トレーニングデータから構築された語彙を維持するNERモデルをターゲットに、タイミング側チャネルを利用する。
学習データセット内の単語の異なる機能パスは、前例のない単語とは対照的に、実行時間に測定可能な違いがあることを示す。
トレーニングサンプルの登録状況が明らかになった場合、例えばテキストのリアクションでは、検出および削除されるセンシティブな単語やフレーズがトレーニングデータセットで検出されるリスクがある。
我々の実験評価は、パスワードと健康データの両方のリアクションを含み、セキュリティリスクとプライバシ/規制の問題の両方を提示する。
これは1つのフレーズだけを暗記する結果によって悪化する。
私たちはテキストの再アクションユースケースに対する最初の攻撃で70%のAUCを達成しました。
また、99.23%のAUCでタイミング攻撃が圧倒的に成功した。
最後に,メンバシップ推論攻撃のプライバシとセキュリティへの影響を踏まえ,nerモデルの安全な利用を実現するための,潜在的な緩和アプローチについて論じる。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Planting and Mitigating Memorized Content in Predictive-Text Language
Models [11.911353678499008]
言語モデルは、ユーザ製品に自動テキスト補完サービスを提供するために広くデプロイされている。
近年の研究では、言語モデルがプライベートトレーニングデータを記憶するかなりのリスクを負っていることが明らかになっている。
本研究では,機密テキストの意図しない暗記を緩和するために,プライバシー保護手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-16T17:57:14Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Are Your Sensitive Attributes Private? Novel Model Inversion Attribute
Inference Attacks on Classification Models [22.569705869469814]
トレーニングデータ中のレコードの非感受性属性を敵が知る場合のモデル反転攻撃に着目した。
我々は,信頼性スコアに基づくモデル逆属性推論攻撃を考案し,その精度を著しく向上させる。
また、ターゲットレコードの他の(非感受性の)属性が敵に未知なシナリオにまで攻撃を拡大します。
論文 参考訳(メタデータ) (2022-01-23T21:27:20Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Membership Inference on Word Embedding and Beyond [17.202696286248294]
単語埋め込みは、現実的な仮定の下で、ブラックボックスのメンバシップ推論攻撃に対して脆弱であることを示す。
また、このリークは、他の2つの主要なNLPアプリケーション(分類とテキスト生成)を通して持続することを示す。
私たちの攻撃は、テキスト生成モデルに対するより安価なメンバシップ推論攻撃です。
論文 参考訳(メタデータ) (2021-06-21T19:37:06Z) - Black-box Model Inversion Attribute Inference Attacks on Classification
Models [32.757792981935815]
我々は、トレーニングデータのインスタンスに関する非感受性属性を敵が知るような、ある種類のモデル反転攻撃に焦点を当てる。
信頼モデルに基づく攻撃と信頼スコアに基づく攻撃の2つの新しいモデル反転属性推論攻撃を考案した。
2つの実際のデータセットでトレーニングされた決定木とディープニューラルネットワークの2種類の機械学習モデルに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-12-07T01:14:19Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。