論文の概要: Practical Membership Inference Attacks against Fine-tuned Large Language
Models via Self-prompt Calibration
- arxiv url: http://arxiv.org/abs/2311.06062v2
- Date: Tue, 12 Dec 2023 03:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 19:20:32.335801
- Title: Practical Membership Inference Attacks against Fine-tuned Large Language
Models via Self-prompt Calibration
- Title(参考訳): 自己宣伝校正による微調整大言語モデルに対する実践的メンバーシップ推論攻撃
- Authors: Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang
- Abstract要約: メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
- 参考スコア(独自算出の注目度): 33.77030569632993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership Inference Attacks (MIA) aim to infer whether a target data record
has been utilized for model training or not. Prior attempts have quantified the
privacy risks of language models (LMs) via MIAs, but there is still no
consensus on whether existing MIA algorithms can cause remarkable privacy
leakage on practical Large Language Models (LLMs). Existing MIAs designed for
LMs can be classified into two categories: reference-free and reference-based
attacks. They are both based on the hypothesis that training records
consistently strike a higher probability of being sampled. Nevertheless, this
hypothesis heavily relies on the overfitting of target models, which will be
mitigated by multiple regularization methods and the generalization of LLMs.
The reference-based attack seems to achieve promising effectiveness in LLMs,
which measures a more reliable membership signal by comparing the probability
discrepancy between the target model and the reference model. However, the
performance of reference-based attack is highly dependent on a reference
dataset that closely resembles the training dataset, which is usually
inaccessible in the practical scenario. Overall, existing MIAs are unable to
effectively unveil privacy leakage over practical fine-tuned LLMs that are
overfitting-free and private. We propose a Membership Inference Attack based on
Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, since
memorization in LLMs is inevitable during the training process and occurs
before overfitting, we introduce a more reliable membership signal,
probabilistic variation, which is based on memorization rather than
overfitting. Furthermore, we introduce a self-prompt approach, which constructs
the dataset to fine-tune the reference model by prompting the target LLM
itself. In this manner, the adversary can collect a dataset with a similar
distribution from public APIs.
- Abstract(参考訳): メンバーシップ推論攻撃(mia)は、対象のデータレコードがモデルトレーニングに利用されたかどうかを推測することを目的としている。
以前の試みでは、MIAを介して言語モデル(LM)のプライバシーリスクを定量化していたが、既存のMIAアルゴリズムが実用的な大規模言語モデル(LLM)に顕著なプライバシー漏洩を引き起こすかどうかについては合意が得られていない。
LM用に設計された既存のMIAは、参照フリーと参照ベースアタックの2つのカテゴリに分類される。
どちらも、トレーニングレコードがサンプリングされる確率が常に高いという仮説に基づいている。
しかしながら、この仮説は、複数の正規化法とLLMの一般化によって緩和されるターゲットモデルの過剰適合に大きく依存している。
基準ベース攻撃は、目標モデルと基準モデルとの確率差を比較することにより、より信頼性の高い会員信号を測定するLLMにおいて有望な効果を達成しているように見える。
しかしながら、参照ベースの攻撃のパフォーマンスは、トレーニングデータセットに非常に近い参照データセットに大きく依存している。
全体として、既存のMIAは、過度にフィットせずプライベートな、実用的な微調整のLLMに対して、効果的なプライバシー漏洩を公開することができない。
本稿では,自補的確率的変動(spv-mia)に基づくメンバシップ推論攻撃を提案する。
具体的には, 学習過程においてllmの記憶は避けられず, オーバーフィッティング前に発生するため, オーバーフィッティングよりも記憶に基づく, より信頼性の高いメンバーシップ信号, 確率的変動を導入する。
さらに,LLM自体を誘導することで,参照モデルを微調整するデータセットを構築するセルフプロンプト手法を提案する。
このようにして、相手はパブリックAPIから同様の分布を持つデータセットを収集できる。
関連論文リスト
- Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [63.67157940979682]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Pandora's White-Box: Increased Training Data Leakage in Open LLMs [4.458307330781945]
我々はオープンソースのLarge Language Models(LLM)に対するプライバシー攻撃について研究する。
我々は,標準に基づく攻撃,教師付きニューラルネットワーク,単一ステップ損失比攻撃の3つの新しいホワイトボックスMIAを提案する。
微調整では、細調整されたモデルとベースモデルの損失を考慮に入れれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Do Membership Inference Attacks Work on Large Language Models? [145.90022632726883]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - MIA-BAD: An Approach for Enhancing Membership Inference Attack and its
Mitigation with Federated Learning [6.510488168434277]
メンバシップ推論攻撃(MIA)は、機械学習(ML)モデルのプライバシを妥協するための一般的なパラダイムである。
バッチ・ワイズ・アサート・データセット(MIA-BAD)を用いた強化されたメンバーシップ推論攻撃を提案する。
FLを用いたMLモデルのトレーニング方法を示すとともに,提案したMIA-BADアプローチによる脅威をFLアプローチで緩和する方法について検討する。
論文 参考訳(メタデータ) (2023-11-28T06:51:26Z) - Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion
Model [14.834360664780709]
モデルアタック(MIA)は、深層学習モデルの到達不可能なトレーニングセットからプライベートデータを復元することを目的としている。
そこで本研究では,条件拡散モデル(CDM)を応用したMIA手法を開発し,対象ラベル下でのサンプルの回収を行う。
実験結果から,本手法は従来手法よりも高い精度で類似したサンプルをターゲットラベルに生成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-17T12:14:24Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - MIAShield: Defending Membership Inference Attacks via Preemptive
Exclusion of Members [9.301268830193072]
メンバーシップ推論攻撃では、相手はモデルの予測を観察し、サンプルがモデルのトレーニングデータの一部であるかどうかを判断する。
そこで我々は,MIAShieldを提案する。MIAShieldは,メンバーの存在を隠蔽する代わりに,メンバーサンプルのプリエンプティブ排除に基づく新しいMIAディフェンスである。
我々は,MIAShieldが多岐にわたるMIAの会員推定を効果的に緩和し,最先端の防衛技術と比較してはるかに優れたプライバシー利用トレードオフを実現し,適応的敵に対する耐性を保っていることを示す。
論文 参考訳(メタデータ) (2022-03-02T07:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。