論文の概要: Membership Inference on Word Embedding and Beyond
- arxiv url: http://arxiv.org/abs/2106.11384v1
- Date: Mon, 21 Jun 2021 19:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:17:51.381194
- Title: Membership Inference on Word Embedding and Beyond
- Title(参考訳): 単語埋め込みとそれ以上の会員推論
- Authors: Saeed Mahloujifar, Huseyin A. Inan, Melissa Chase, Esha Ghosh,
Marcello Hasegawa
- Abstract要約: 単語埋め込みは、現実的な仮定の下で、ブラックボックスのメンバシップ推論攻撃に対して脆弱であることを示す。
また、このリークは、他の2つの主要なNLPアプリケーション(分類とテキスト生成)を通して持続することを示す。
私たちの攻撃は、テキスト生成モデルに対するより安価なメンバシップ推論攻撃です。
- 参考スコア(独自算出の注目度): 17.202696286248294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the text processing context, most ML models are built on word embeddings.
These embeddings are themselves trained on some datasets, potentially
containing sensitive data. In some cases this training is done independently,
in other cases, it occurs as part of training a larger, task-specific model. In
either case, it is of interest to consider membership inference attacks based
on the embedding layer as a way of understanding sensitive information leakage.
But, somewhat surprisingly, membership inference attacks on word embeddings and
their effect in other natural language processing (NLP) tasks that use these
embeddings, have remained relatively unexplored.
In this work, we show that word embeddings are vulnerable to black-box
membership inference attacks under realistic assumptions. Furthermore, we show
that this leakage persists through two other major NLP applications:
classification and text-generation, even when the embedding layer is not
exposed to the attacker. We show that our MI attack achieves high attack
accuracy against a classifier model and an LSTM-based language model. Indeed,
our attack is a cheaper membership inference attack on text-generative models,
which does not require the knowledge of the target model or any expensive
training of text-generative models as shadow models.
- Abstract(参考訳): テキスト処理のコンテキストでは、ほとんどのMLモデルは単語の埋め込みに基づいている。
これらの埋め込み自身は、機密データを含む可能性のある、いくつかのデータセットでトレーニングされている。
ある場合には、このトレーニングは独立して行われ、ある場合には、より大きなタスク固有のモデルのトレーニングの一部として行われる。
いずれの場合も,センシティブな情報漏洩を理解する手段として,組込み層に基づくメンバシップ推論攻撃を検討すべきである。
しかし、少々意外なことに、単語埋め込みに対するメンバーシップ推論攻撃や、これらの埋め込みを使用する他の自然言語処理(nlp)タスクへの影響は、比較的未検討のままである。
本研究では,現実の仮定下でのブラックボックスメンバーシップ推論攻撃に対して,単語埋め込みが脆弱であることを示す。
さらに,このリークは,埋め込み層が攻撃者に露出していない場合でも,分類とテキスト生成という2つの主要なNLPアプリケーションを通して持続することを示す。
我々のMI攻撃は分類器モデルとLSTMに基づく言語モデルに対して高い攻撃精度が得られることを示す。
実際、我々の攻撃はテキスト生成モデルに対するより安価なメンバシップ推論攻撃であり、ターゲットモデルの知識やシャドーモデルとしてのテキスト生成モデルの高価なトレーニングを必要としない。
関連論文リスト
- SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - SCAT: Robust Self-supervised Contrastive Learning via Adversarial
Training for Text Classification [15.932462099791307]
SCAT (Self-supervised Contrastive Learning via Adversarial Training) と呼ばれる新しい学習フレームワークを提案する。
SCATは、データのランダムな拡張をラベルのない方法で修正し、敵の例を生成する。
以上の結果から,SCATはスクラッチから頑健な言語モデルを訓練できるだけでなく,既存の事前学習言語モデルの堅牢性を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-07-04T05:41:31Z) - Unintended Memorization and Timing Attacks in Named Entity Recognition
Models [5.404816271595691]
ユーザ文書中の機密情報を識別するためのブラックボックスサービスとして,NERモデルが利用可能である場合について検討する。
spaCyから事前訓練されたNERモデルを更新することにより、これらのモデルに対する2つの異なるメンバシップ攻撃を実演する。
論文 参考訳(メタデータ) (2022-11-04T03:32:16Z) - Are Your Sensitive Attributes Private? Novel Model Inversion Attribute
Inference Attacks on Classification Models [22.569705869469814]
トレーニングデータ中のレコードの非感受性属性を敵が知る場合のモデル反転攻撃に着目した。
我々は,信頼性スコアに基づくモデル逆属性推論攻撃を考案し,その精度を著しく向上させる。
また、ターゲットレコードの他の(非感受性の)属性が敵に未知なシナリオにまで攻撃を拡大します。
論文 参考訳(メタデータ) (2022-01-23T21:27:20Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks [10.290050493635343]
敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T20:21:03Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Privacy Analysis of Deep Learning in the Wild: Membership Inference
Attacks against Transfer Learning [27.494206948563885]
本稿では,転送学習モデルに対するメンバシップ推論攻撃の最初の体系的評価について述べる。
4つの実世界の画像データセットに対する実験により、メンバーシップ推論が効果的なパフォーマンスを達成できることが示されている。
我々の結果は、実際に機械学習モデルから生じるメンバーシップリスクの深刻さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-09-10T14:14:22Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。