論文の概要: Combing for Credentials: Active Pattern Extraction from Smart Reply
- arxiv url: http://arxiv.org/abs/2207.10802v3
- Date: Sat, 2 Sep 2023 22:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 11:53:28.358781
- Title: Combing for Credentials: Active Pattern Extraction from Smart Reply
- Title(参考訳): クレデンシャルのコンピング:smart replyからのアクティブパターン抽出
- Authors: Bargav Jayaraman, Esha Ghosh, Melissa Chase, Sambuddha Roy, Wei Dai,
David Evans
- Abstract要約: 典型的なSmart Replyパイプラインにおける潜在的な情報漏洩脆弱性について検討する。
我々は、機密データを含むテキストの標準パターンを利用する新しいタイプのアクティブ抽出攻撃を導入する。
本研究では,現実的な設定であっても,学習データに含まれるセンシティブなユーザ情報を抽出することが可能であることを実験的に示す。
- 参考スコア(独自算出の注目度): 15.097010165958027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models, such as GPT\nobreakdash-2 and BERT, are
often fine-tuned to achieve state-of-the-art performance on a downstream task.
One natural example is the ``Smart Reply'' application where a pre-trained
model is tuned to provide suggested responses for a given query message. Since
the tuning data is often sensitive data such as emails or chat transcripts, it
is important to understand and mitigate the risk that the model leaks its
tuning data. We investigate potential information leakage vulnerabilities in a
typical Smart Reply pipeline. We consider a realistic setting where the
adversary can only interact with the underlying model through a front-end
interface that constrains what types of queries can be sent to the model.
Previous attacks do not work in these settings, but require the ability to send
unconstrained queries directly to the model. Even when there are no constraints
on the queries, previous attacks typically require thousands, or even millions,
of queries to extract useful information, while our attacks can extract
sensitive data in just a handful of queries. We introduce a new type of active
extraction attack that exploits canonical patterns in text containing sensitive
data. We show experimentally that it is possible for an adversary to extract
sensitive user information present in the training data, even in realistic
settings where all interactions with the model must go through a front-end that
limits the types of queries. We explore potential mitigation strategies and
demonstrate empirically how differential privacy appears to be a reasonably
effective defense mechanism to such pattern extraction attacks.
- Abstract(参考訳): GPT\nobreakdash-2やBERTのような事前訓練された大きな言語モデルは、ダウンストリームタスクで最先端のパフォーマンスを達成するために微調整されることが多い。
自然な例は ``smart reply'' アプリケーションで、所定のクエリメッセージに対して推奨応答を提供するように事前トレーニングされたモデルを調整する。
チューニングデータはしばしば電子メールやチャットの書き起こしなどのセンシティブなデータであるため、モデルがチューニングデータを漏洩するリスクを理解し緩和することが重要である。
典型的なスマートリプライパイプラインにおける潜在的な情報漏洩脆弱性について検討する。
我々は、どのタイプのクエリをモデルに送信できるかを制約するフロントエンドインターフェースを通じて、敵が基盤となるモデルとのみ対話できる現実的な設定を考えます。
以前の攻撃はこれらの設定では機能しないが、制約のないクエリを直接モデルに送信する必要がある。
クエリに制約がない場合でも、以前の攻撃は通常、有用な情報を抽出するために数千、あるいは数百万のクエリを必要としますが、私たちの攻撃はほんの数回のクエリで機密データを抽出することができます。
センシティブなデータを含むテキストの正準パターンを利用する,新たなタイプのアクティブ抽出攻撃を提案する。
モデルとのインタラクションはすべて,クエリのタイプを制限するフロントエンドを経由しなければならない現実的な設定であっても,トレーニングデータに存在するセンシティブなユーザ情報を抽出することが可能であることを実験的に示す。
我々は、潜在的な緩和戦略を検討し、そのようなパターン抽出攻撃に対して、差分プライバシーが合理的に効果的な防御メカニズムであることを示す。
関連論文リスト
- MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。