論文の概要: Active Data Pattern Extraction Attacks on Generative Language Models
- arxiv url: http://arxiv.org/abs/2207.10802v1
- Date: Thu, 14 Jul 2022 05:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-31 14:18:39.486250
- Title: Active Data Pattern Extraction Attacks on Generative Language Models
- Title(参考訳): 生成言語モデルに対するアクティブデータパターン抽出攻撃
- Authors: Bargav Jayaraman, Esha Ghosh, Huseyin Inan, Melissa Chase, Sambuddha
Roy, Wei Dai
- Abstract要約: 我々は,スマートリプライモデルにブラックボックスやグレーボックスのアクセスを持つ敵が,トレーニングデータに含まれるセンシティブなユーザ情報を抽出することは可能であることを示す。
我々は、潜在的な緩和戦略を検討し、差別化プライバシがこのようなデータ抽出攻撃に対する強力な防御メカニズムであることを実証する。
- 参考スコア(独自算出の注目度): 9.777894011328573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the wide availability of large pre-trained language model checkpoints,
such as GPT-2 and BERT, the recent trend has been to fine-tune them on a
downstream task to achieve the state-of-the-art performance with a small
computation overhead. One natural example is the Smart Reply application where
a pre-trained model is fine-tuned for suggesting a number of responses given a
query message. In this work, we set out to investigate potential information
leakage vulnerabilities in a typical Smart Reply pipeline and show that it is
possible for an adversary, having black-box or gray-box access to a Smart Reply
model, to extract sensitive user information present in the training data. We
further analyse the privacy impact of specific components, e.g. the decoding
strategy, pertained to this application through our attack settings. We explore
potential mitigation strategies and demonstrate how differential privacy can be
a strong defense mechanism to such data extraction attacks.
- Abstract(参考訳): GPT-2やBERTのような大規模な事前訓練された言語モデルチェックポイントが広く利用可能になれば、最近のトレンドは、ダウンストリームタスクでそれらを微調整して、計算オーバーヘッドを小さくして最先端のパフォーマンスを達成することである。
自然な例のひとつがsmart replyアプリケーションで、事前トレーニングされたモデルを微調整して、クエリメッセージに対して多数のレスポンスを提案する。
本研究では,一般的なSmart Replyパイプラインの潜在的な情報漏洩脆弱性を調査し,学習データに含まれるセンシティブなユーザ情報を抽出するために,ブラックボックスやグレーボックスがSmart Replyモデルにアクセス可能な敵に対して可能であることを示す。
我々は、攻撃設定を通じて、このアプリケーションに関連する特定のコンポーネント、例えばデコード戦略のプライバシーへの影響をさらに分析する。
我々は、潜在的な緩和戦略を検討し、差分プライバシーがそのようなデータ抽出攻撃に対する強力な防御メカニズムであることを示す。
関連論文リスト
- MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。