論文の概要: Canary Extraction in Natural Language Understanding Models
- arxiv url: http://arxiv.org/abs/2203.13920v1
- Date: Fri, 25 Mar 2022 21:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:18:34.005613
- Title: Canary Extraction in Natural Language Understanding Models
- Title(参考訳): 自然言語理解モデルにおけるカナリア抽出
- Authors: Rahil Parikh, Christophe Dupuy, Rahul Gupta
- Abstract要約: 自然言語理解(NLU)モデルは、電話番号やジップコードなどの機密情報に基づいて訓練することができる。
近年の文献では、モデルパラメータからトレーニングデータを抽出できるModIvA(Model Inversion Attacks)に焦点を当てている。
我々は,NLUトレーニングデータに挿入されたカナリアを抽出し,そのような攻撃の態様を示す。
- 参考スコア(独自算出の注目度): 16.15483497946356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural Language Understanding (NLU) models can be trained on sensitive
information such as phone numbers, zip-codes etc. Recent literature has focused
on Model Inversion Attacks (ModIvA) that can extract training data from model
parameters. In this work, we present a version of such an attack by extracting
canaries inserted in NLU training data. In the attack, an adversary with
open-box access to the model reconstructs the canaries contained in the model's
training set. We evaluate our approach by performing text completion on
canaries and demonstrate that by using the prefix (non-sensitive) tokens of the
canary, we can generate the full canary. As an example, our attack is able to
reconstruct a four digit code in the training dataset of the NLU model with a
probability of 0.5 in its best configuration. As countermeasures, we identify
several defense mechanisms that, when combined, effectively eliminate the risk
of ModIvA in our experiments.
- Abstract(参考訳): 自然言語理解(NLU)モデルは、電話番号やジップコードなどの機密情報に基づいて訓練することができる。
近年の文献では、モデルパラメータからトレーニングデータを抽出できるモデル反転攻撃(ModIvA)に焦点を当てている。
本研究では,NLUトレーニングデータに挿入されたカナリアを抽出し,そのような攻撃の態様を示す。
攻撃では、モデルへのオープンボックスアクセスを持つ敵がモデルのトレーニングセットに含まれるカナリアを再構築する。
カナリア上でテキスト補完を行うことで,このアプローチを評価し,カナリアのプレフィックス(非センシティブ)トークンを使用することで,カナリア全体を生成できることを実証する。
例えば、攻撃は、nluモデルのトレーニングデータセット内の4桁のコードを、最良の構成で0.5の確率で再構築することができる。
対策として,本実験においてModIvAのリスクを効果的に排除するいくつかの防御機構を同定した。
関連論文リスト
- Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Transpose Attack: Stealing Datasets with Bidirectional Training [4.166238443183223]
敵は正統なモデルの下で保護された学習環境からデータセットを抽出できることを示す。
本稿では,感染モデルを検出するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:14:50Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models [53.416234157608]
本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。