論文の概要: Pandora's White-Box: Increased Training Data Leakage in Open LLMs
- arxiv url: http://arxiv.org/abs/2402.17012v1
- Date: Mon, 26 Feb 2024 20:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:30:32.833130
- Title: Pandora's White-Box: Increased Training Data Leakage in Open LLMs
- Title(参考訳): PandoraのWhite-Box:オープンLLMのトレーニングデータ漏洩の増加
- Authors: Jeffrey G. Wang, Jason Wang, Marvin Li, Seth Neel
- Abstract要約: 我々はオープンソースのLarge Language Models(LLM)に対するプライバシー攻撃について研究する。
我々は,標準に基づく攻撃,教師付きニューラルネットワーク,単一ステップ損失比攻撃の3つの新しいホワイトボックスMIAを提案する。
微調整では、細調整されたモデルとベースモデルの損失を考慮に入れれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
- 参考スコア(独自算出の注目度): 4.458307330781945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we undertake a systematic study of privacy attacks against open
source Large Language Models (LLMs), where an adversary has access to either
the model weights, gradients, or losses, and tries to exploit them to learn
something about the underlying training data. Our headline results are the
first membership inference attacks (MIAs) against pre-trained LLMs that are
able to simultaneously achieve high TPRs and low FPRs, and a pipeline showing
that over $50\%$ (!) of the fine-tuning dataset can be extracted from a
fine-tuned LLM in natural settings. We consider varying degrees of access to
the underlying model, customization of the language model, and resources
available to the attacker. In the pre-trained setting, we propose three new
white-box MIAs: an attack based on the gradient norm, a supervised neural
network classifier, and a single step loss ratio attack. All outperform
existing black-box baselines, and our supervised attack closes the gap between
MIA attack success against LLMs and other types of models. In fine-tuning, we
find that given access to the loss of the fine-tuned and base models, a
fine-tuned loss ratio attack FLoRA is able to achieve near perfect MIA
peformance. We then leverage these MIAs to extract fine-tuning data from
fine-tuned language models. We find that the pipeline of generating from
fine-tuned models prompted with a small snippet of the prefix of each training
example, followed by using FLoRa to select the most likely training sample,
succeeds the majority of the fine-tuning dataset after only $3$ epochs of
fine-tuning. Taken together, these findings show that highly effective MIAs are
available in almost all LLM training settings, and highlight that great care
must be taken before LLMs are fine-tuned on highly sensitive data and then
deployed.
- Abstract(参考訳): 本稿では,オープンソース大規模言語モデル(llms)に対するプライバシ攻撃に関する体系的な研究を行い,敵がモデル重み,勾配,損失のいずれかにアクセスし,基礎となるトレーニングデータについて何かを学ぶために利用しようとする。
本研究のメインラインは,高いTPRと低いFPRを同時に達成できる事前学習LLMに対するMIA攻撃であり,自然条件下での微調整LLMから50ドル以上の微調整データセットを抽出できることを示すパイプラインである。
基礎となるモデルへのアクセスの度合い、言語モデルのカスタマイズ、攻撃者が利用できるリソースについて検討する。
プレトレーニング設定では,勾配ノルムに基づく攻撃,教師付きニューラルネットワーク分類器,単一ステップ損失比攻撃という,新たな3つのホワイトボックスmiasを提案する。
既存のブラックボックスベースラインを全て上回り、監視された攻撃は、LSMや他のモデルに対するMIA攻撃の成功の間のギャップを埋めます。
微調整では、細調整されたモデルとベースモデルの損失を考慮すれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
次に、これらのMIAを利用して、微調整言語モデルから微調整データを抽出する。
各トレーニングサンプルのプレフィックスの小さなスニペットでトリガーされた微調整モデルから生成するパイプラインが、FLoRaを使用して最も可能性の高いトレーニングサンプルを選択し、わずか3ドル(約3,300円)の微調整データセットの過半数を継承することがわかった。
これらの結果から, LLMのトレーニング環境のほとんどすべてにおいて, 極めて効果的なMIAが利用可能であること, そして, LLMが高感度なデータに基づいて微調整され, 展開する前には, 非常に注意が必要であること, が明らかになった。
関連論文リスト
- Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [63.67157940979682]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Do Membership Inference Attacks Work on Large Language Models? [145.90022632726883]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MIA-BAD: An Approach for Enhancing Membership Inference Attack and its
Mitigation with Federated Learning [6.510488168434277]
メンバシップ推論攻撃(MIA)は、機械学習(ML)モデルのプライバシを妥協するための一般的なパラダイムである。
バッチ・ワイズ・アサート・データセット(MIA-BAD)を用いた強化されたメンバーシップ推論攻撃を提案する。
FLを用いたMLモデルのトレーニング方法を示すとともに,提案したMIA-BADアプローチによる脅威をFLアプローチで緩和する方法について検討する。
論文 参考訳(メタデータ) (2023-11-28T06:51:26Z) - Practical Membership Inference Attacks against Fine-tuned Large Language
Models via Self-prompt Calibration [33.77030569632993]
メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [31.426892450603873]
''In-Context Unlearning''は、モデルパラメータを更新することなく、コンテキスト内のインプットを提供する。
これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。