論文の概要: Practical Membership Inference Attacks against Fine-tuned Large Language
Models via Self-prompt Calibration
- arxiv url: http://arxiv.org/abs/2311.06062v1
- Date: Fri, 10 Nov 2023 13:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 15:07:02.491017
- Title: Practical Membership Inference Attacks against Fine-tuned Large Language
Models via Self-prompt Calibration
- Title(参考訳): 自己宣伝校正による微調整大言語モデルに対する実践的メンバーシップ推論攻撃
- Authors: Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang
- Abstract要約: メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
- 参考スコア(独自算出の注目度): 33.77030569632993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership Inference Attacks (MIA) aim to infer whether a target data record
has been utilized for model training or not. Prior attempts have quantified the
privacy risks of language models (LMs) via MIAs, but there is still no
consensus on whether existing MIA algorithms can cause remarkable privacy
leakage on practical Large Language Models (LLMs). Existing MIAs designed for
LMs can be classified into two categories: reference-free and reference-based
attacks. They are both based on the hypothesis that training records
consistently strike a higher probability of being sampled. Nevertheless, this
hypothesis heavily relies on the overfitting of target models, which will be
mitigated by multiple regularization methods and the generalization of LLMs.
The reference-based attack seems to achieve promising effectiveness in LLMs,
which measures a more reliable membership signal by comparing the probability
discrepancy between the target model and the reference model. However, the
performance of reference-based attack is highly dependent on a reference
dataset that closely resembles the training dataset, which is usually
inaccessible in the practical scenario. Overall, existing MIAs are unable to
effectively unveil privacy leakage over practical fine-tuned LLMs that are
overfitting-free and private. We propose a Membership Inference Attack based on
Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, since
memorization in LLMs is inevitable during the training process and occurs
before overfitting, we introduce a more reliable membership signal,
probabilistic variation, which is based on memorization rather than
overfitting. Furthermore, we introduce a self-prompt approach, which constructs
the dataset to fine-tune the reference model by prompting the target LLM
itself. In this manner, the adversary can collect a dataset with a similar
distribution from public APIs.
- Abstract(参考訳): メンバーシップ推論攻撃(mia)は、対象のデータレコードがモデルトレーニングに利用されたかどうかを推測することを目的としている。
以前の試みでは、MIAを介して言語モデル(LM)のプライバシーリスクを定量化していたが、既存のMIAアルゴリズムが実用的な大規模言語モデル(LLM)に顕著なプライバシー漏洩を引き起こすかどうかについては合意が得られていない。
LM用に設計された既存のMIAは、参照フリーと参照ベースアタックの2つのカテゴリに分類される。
どちらも、トレーニングレコードがサンプリングされる確率が常に高いという仮説に基づいている。
しかしながら、この仮説は、複数の正規化法とLLMの一般化によって緩和されるターゲットモデルの過剰適合に大きく依存している。
基準ベース攻撃は、目標モデルと基準モデルとの確率差を比較することにより、より信頼性の高い会員信号を測定するLLMにおいて有望な効果を達成しているように見える。
しかしながら、参照ベースの攻撃のパフォーマンスは、トレーニングデータセットに非常に近い参照データセットに大きく依存している。
全体として、既存のMIAは、過度にフィットせずプライベートな、実用的な微調整のLLMに対して、効果的なプライバシー漏洩を公開することができない。
本稿では,自補的確率的変動(spv-mia)に基づくメンバシップ推論攻撃を提案する。
具体的には, 学習過程においてllmの記憶は避けられず, オーバーフィッティング前に発生するため, オーバーフィッティングよりも記憶に基づく, より信頼性の高いメンバーシップ信号, 確率的変動を導入する。
さらに,LLM自体を誘導することで,参照モデルを微調整するデータセットを構築するセルフプロンプト手法を提案する。
このようにして、相手はパブリックAPIから同様の分布を持つデータセットを収集できる。
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - MIA-BAD: An Approach for Enhancing Membership Inference Attack and its
Mitigation with Federated Learning [6.510488168434277]
メンバシップ推論攻撃(MIA)は、機械学習(ML)モデルのプライバシを妥協するための一般的なパラダイムである。
バッチ・ワイズ・アサート・データセット(MIA-BAD)を用いた強化されたメンバーシップ推論攻撃を提案する。
FLを用いたMLモデルのトレーニング方法を示すとともに,提案したMIA-BADアプローチによる脅威をFLアプローチで緩和する方法について検討する。
論文 参考訳(メタデータ) (2023-11-28T06:51:26Z) - Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion
Model [14.834360664780709]
モデルアタック(MIA)は、深層学習モデルの到達不可能なトレーニングセットからプライベートデータを復元することを目的としている。
そこで本研究では,条件拡散モデル(CDM)を応用したMIA手法を開発し,対象ラベル下でのサンプルの回収を行う。
実験結果から,本手法は従来手法よりも高い精度で類似したサンプルをターゲットラベルに生成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-17T12:14:24Z) - Membership Inference Attacks against Language Models via Neighbourhood
Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文 参考訳(メタデータ) (2023-05-29T07:06:03Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。