論文の概要: Pandora's White-Box: Increased Training Data Leakage in Open LLMs
- arxiv url: http://arxiv.org/abs/2402.17012v1
- Date: Mon, 26 Feb 2024 20:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:30:32.833130
- Title: Pandora's White-Box: Increased Training Data Leakage in Open LLMs
- Title(参考訳): PandoraのWhite-Box:オープンLLMのトレーニングデータ漏洩の増加
- Authors: Jeffrey G. Wang, Jason Wang, Marvin Li, Seth Neel
- Abstract要約: 我々はオープンソースのLarge Language Models(LLM)に対するプライバシー攻撃について研究する。
我々は,標準に基づく攻撃,教師付きニューラルネットワーク,単一ステップ損失比攻撃の3つの新しいホワイトボックスMIAを提案する。
微調整では、細調整されたモデルとベースモデルの損失を考慮に入れれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
- 参考スコア(独自算出の注目度): 4.458307330781945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we undertake a systematic study of privacy attacks against open
source Large Language Models (LLMs), where an adversary has access to either
the model weights, gradients, or losses, and tries to exploit them to learn
something about the underlying training data. Our headline results are the
first membership inference attacks (MIAs) against pre-trained LLMs that are
able to simultaneously achieve high TPRs and low FPRs, and a pipeline showing
that over $50\%$ (!) of the fine-tuning dataset can be extracted from a
fine-tuned LLM in natural settings. We consider varying degrees of access to
the underlying model, customization of the language model, and resources
available to the attacker. In the pre-trained setting, we propose three new
white-box MIAs: an attack based on the gradient norm, a supervised neural
network classifier, and a single step loss ratio attack. All outperform
existing black-box baselines, and our supervised attack closes the gap between
MIA attack success against LLMs and other types of models. In fine-tuning, we
find that given access to the loss of the fine-tuned and base models, a
fine-tuned loss ratio attack FLoRA is able to achieve near perfect MIA
peformance. We then leverage these MIAs to extract fine-tuning data from
fine-tuned language models. We find that the pipeline of generating from
fine-tuned models prompted with a small snippet of the prefix of each training
example, followed by using FLoRa to select the most likely training sample,
succeeds the majority of the fine-tuning dataset after only $3$ epochs of
fine-tuning. Taken together, these findings show that highly effective MIAs are
available in almost all LLM training settings, and highlight that great care
must be taken before LLMs are fine-tuned on highly sensitive data and then
deployed.
- Abstract(参考訳): 本稿では,オープンソース大規模言語モデル(llms)に対するプライバシ攻撃に関する体系的な研究を行い,敵がモデル重み,勾配,損失のいずれかにアクセスし,基礎となるトレーニングデータについて何かを学ぶために利用しようとする。
本研究のメインラインは,高いTPRと低いFPRを同時に達成できる事前学習LLMに対するMIA攻撃であり,自然条件下での微調整LLMから50ドル以上の微調整データセットを抽出できることを示すパイプラインである。
基礎となるモデルへのアクセスの度合い、言語モデルのカスタマイズ、攻撃者が利用できるリソースについて検討する。
プレトレーニング設定では,勾配ノルムに基づく攻撃,教師付きニューラルネットワーク分類器,単一ステップ損失比攻撃という,新たな3つのホワイトボックスmiasを提案する。
既存のブラックボックスベースラインを全て上回り、監視された攻撃は、LSMや他のモデルに対するMIA攻撃の成功の間のギャップを埋めます。
微調整では、細調整されたモデルとベースモデルの損失を考慮すれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
次に、これらのMIAを利用して、微調整言語モデルから微調整データを抽出する。
各トレーニングサンプルのプレフィックスの小さなスニペットでトリガーされた微調整モデルから生成するパイプラインが、FLoRaを使用して最も可能性の高いトレーニングサンプルを選択し、わずか3ドル(約3,300円)の微調整データセットの過半数を継承することがわかった。
これらの結果から, LLMのトレーニング環境のほとんどすべてにおいて, 極めて効果的なMIAが利用可能であること, そして, LLMが高感度なデータに基づいて微調整され, 展開する前には, 非常に注意が必要であること, が明らかになった。
関連論文リスト
- Order of Magnitude Speedups for LLM Membership Inference [5.124111136127848]
大規模言語モデル(LLM)は、コンピューティングを広く革新させるという約束を持っているが、その複雑さと広範なトレーニングデータもまた、プライバシの脆弱性を露呈している。
LLMに関連する最も単純なプライバシーリスクの1つは、メンバーシップ推論攻撃(MIA)に対する感受性である。
文書がモデルのトレーニングセットに属しているか否かを判断するために,小さな量子レグレッションモデルのアンサンブルを利用する低コストMIAを提案する。
論文 参考訳(メタデータ) (2024-09-22T16:18:14Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Army of Thieves: Enhancing Black-Box Model Extraction via Ensemble based
sample selection [10.513955887214497]
Model Stealing Attacks (MSA)では、ラベル付きデータセットを構築するために、機械学習モデルを繰り返しクエリされる。
本研究では,泥棒モデルとして深層学習モデルのアンサンブルの利用について検討する。
CIFAR-10データセットでトレーニングしたモデルに対して,従来よりも21%高い逆サンプル転送性を実現する。
論文 参考訳(メタデータ) (2023-11-08T10:31:29Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。