論文の概要: Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction
Challenge
- arxiv url: http://arxiv.org/abs/2302.07735v1
- Date: Mon, 13 Feb 2023 18:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:42:08.174662
- Title: Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction
Challenge
- Title(参考訳): SATML言語モデルデータ抽出チャレンジにおけるGPT-Neoのターゲット攻撃
- Authors: Ali Al-Kaswan, Maliheh Izadi, Arie van Deursen
- Abstract要約: SATML2023言語モデル学習データ抽出チャレンジにターゲットデータ抽出攻撃を適用する。
モデルのリコールを最大化し,サンプルの69%の接尾辞を抽出できる。
提案手法は10パーセントの偽陽性率で0.405リコールに達し, 0.301のベースラインよりも34%向上した。
- 参考スコア(独自算出の注目度): 4.438873396405334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Previous work has shown that Large Language Models are susceptible to
so-called data extraction attacks. This allows an attacker to extract a sample
that was contained in the training data, which has massive privacy
implications. The construction of data extraction attacks is challenging,
current attacks are quite inefficient, and there exists a significant gap in
the extraction capabilities of untargeted attacks and memorization. Thus,
targeted attacks are proposed, which identify if a given sample from the
training data, is extractable from a model. In this work, we apply a targeted
data extraction attack to the SATML2023 Language Model Training Data Extraction
Challenge. We apply a two-step approach. In the first step, we maximise the
recall of the model and are able to extract the suffix for 69% of the samples.
In the second step, we use a classifier-based Membership Inference Attack on
the generations. Our AutoSklearn classifier achieves a precision of 0.841. The
full approach reaches a score of 0.405 recall at a 10% false positive rate,
which is an improvement of 34% over the baseline of 0.301.
- Abstract(参考訳): これまでの研究によると、大規模言語モデルはいわゆるデータ抽出攻撃の影響を受けやすい。
これにより、攻撃者はトレーニングデータに含まれていたサンプルを抽出することができる。
データ抽出攻撃の構築は困難であり、現在の攻撃は非常に非効率であり、標的外攻撃の抽出能力と記憶能力には大きなギャップがある。
これにより、トレーニングデータから与えられたサンプルがモデルから抽出可能かどうかを識別する標的攻撃が提案される。
本研究では,SATML2023言語モデル学習データ抽出チャレンジに対して,対象データ抽出攻撃を適用した。
我々は2段階のアプローチを適用する。
最初のステップでは、モデルのリコールを最大化し、サンプルの69%に対して接尾辞を抽出することができる。
第2のステップでは、世代毎に分類器ベースのメンバーシップ推論攻撃を使用する。
我々のAutoSklearn分類器は0.841の精度を達成する。
完全なアプローチは0.405リコールで10%の偽陽性率に達し、これは0.301のベースラインよりも34%改善されている。
関連論文リスト
- Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning [14.011140902511135]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Fault Injection and Safe-Error Attack for Extraction of Embedded Neural Network Models [1.2499537119440245]
モノのインターネット(IoT)における32ビットマイクロコントローラの組み込みディープニューラルネットワークモデルに焦点をあてる。
攻撃を成功させるためのブラックボックス手法を提案する。
古典的畳み込みニューラルネットワークでは、1500個の入力で最も重要なビットの少なくとも90%を回復することに成功した。
論文 参考訳(メタデータ) (2023-08-31T13:09:33Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - First to Possess His Statistics: Data-Free Model Extraction Attack on
Tabular Data [0.0]
本稿では,実用的なデータフリー環境下でのTEMPESTと呼ばれる新しいモデル抽出攻撃を提案する。
実験により、我々の攻撃は以前の攻撃と同等のパフォーマンスを達成できることが示された。
本稿では,TEMPESTを実世界において医療診断実験により実施する可能性について論じる。
論文 参考訳(メタデータ) (2021-09-30T05:30:12Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。