論文の概要: Controlling the Extraction of Memorized Data from Large Language Models
via Prompt-Tuning
- arxiv url: http://arxiv.org/abs/2305.11759v1
- Date: Fri, 19 May 2023 15:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:49:45.603898
- Title: Controlling the Extraction of Memorized Data from Large Language Models
via Prompt-Tuning
- Title(参考訳): Prompt-Tuningによる大規模言語モデルからの記憶データの抽出制御
- Authors: Mustafa Safa Ozdayi and Charith Peris and Jack FitzGerald and
Christophe Dupuy and Jimit Majmudar and Haidar Khan and Rahil Parikh and
Rahul Gupta
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータのかなりの部分を記憶することが知られている。
本稿では, LLMにおける暗記コンテンツの抽出速度を制御するために, プロンプトチューニングを用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 14.228909822681373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are known to memorize significant portions of
their training data. Parts of this memorized content have been shown to be
extractable by simply querying the model, which poses a privacy risk. We
present a novel approach which uses prompt-tuning to control the extraction
rates of memorized content in LLMs. We present two prompt training strategies
to increase and decrease extraction rates, which correspond to an attack and a
defense, respectively. We demonstrate the effectiveness of our techniques by
using models from the GPT-Neo family on a public benchmark. For the 1.3B
parameter GPT-Neo model, our attack yields a 9.3 percentage point increase in
extraction rate compared to our baseline. Our defense can be tuned to achieve
different privacy-utility trade-offs by a user-specified hyperparameter. We
achieve an extraction rate reduction of up to 97.7% relative to our baseline,
with a perplexity increase of 16.9%.
- Abstract(参考訳): 大規模言語モデル(llm)は、トレーニングデータの大部分を記憶することが知られている。
この記憶されたコンテンツの一部は、単にモデルに問い合わせることで抽出可能であることが示されており、プライバシーのリスクが生じる。
LLMにおける暗記コンテンツの抽出速度を制御するために,プロンプトチューニングを用いた新しい手法を提案する。
本稿では,攻撃と防衛に対応する抽出率を向上・減少させる2つの迅速な訓練戦略を提案する。
GPT-Neo ファミリーのモデルを公開ベンチマークに用いて,本手法の有効性を示す。
1.3BパラメータGPT-Neoモデルでは,ベースラインと比較して9.3ポイントの抽出率向上率が得られる。
我々の防衛は、ユーザーが指定したハイパーパラメータによって異なるプライバシーとユーティリティのトレードオフを達成するように調整できる。
抽出率は, ベースラインに対して97.7%まで減少し, パープレキシティは16.9%増加した。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - PII-Compass: Guiding LLM training data extraction prompts towards the target PII via grounding [8.98944128441731]
ドメイン内データを用いて手作業で構築した抽出プロンプトを接地することで,個人識別情報(PII)の抽出性を向上させることができることを示す。
提案手法は,1,128,128,2308問合せでそれぞれ0.92%,3.9%,6.86%のPII電話番号抽出率,すなわち15人に15人の電話番号を抽出可能である。
論文 参考訳(メタデータ) (2024-07-03T09:20:04Z) - Beyond Slow Signs in High-fidelity Model Extraction [18.330719989672442]
深層ニューラルネットワークは、訓練に費用がかかり、知的財産価値が豊富である。
それまでの攻撃は、少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、逆エンジニアリングモデルパラメーターをfloat64の精度まで向上させることに成功した。
我々は,従来の手法を統合した統一最適化を導入し,計算ツールが性能に著しく影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-14T13:24:07Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - Model Leeching: An Extraction Attack Targeting LLMs [4.533013952442819]
Model Leechingは、Large Language Models (LLM)をターゲットにした新しい抽出攻撃である。
また,ChatGPT-3.5-Turbo からタスク能力を抽出し,SQuAD EM と F1 の精度スコアを 75% と 87% の精度で,API コストで50 ドルに抑えた。
論文 参考訳(メタデータ) (2023-09-19T11:45:29Z) - Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction
Challenge [4.438873396405334]
SATML2023言語モデル学習データ抽出チャレンジにターゲットデータ抽出攻撃を適用する。
モデルのリコールを最大化し,サンプルの69%の接尾辞を抽出できる。
提案手法は10パーセントの偽陽性率で0.405リコールに達し, 0.301のベースラインよりも34%向上した。
論文 参考訳(メタデータ) (2023-02-13T18:00:44Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。