論文の概要: User Inference Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2310.09266v1
- Date: Fri, 13 Oct 2023 17:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 11:52:35.829414
- Title: User Inference Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルに対するユーザ推論攻撃
- Authors: Nikhil Kandpal, Krishna Pillutla, Alina Oprea, Peter Kairouz,
Christopher A. Choquette-Choo, Zheng Xu
- Abstract要約: ファインチューニング(英: Fine-tuning)は、大規模言語モデル(LLM)を特定のタスクやアプリケーションに合わせるための、一般的で効果的な方法である。
本稿では,ユーザのデータを微調整に使用するか否かを,攻撃者が推測する,ユーザ推論と呼ばれる現実的な脅威モデルを定義する。
LLMは様々な微調整データセットをまたいだユーザ推測攻撃の影響を受けやすいことが分かり、攻撃成功率がほぼ完璧な場合もあります。
- 参考スコア(独自算出の注目度): 26.616016510555088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is a common and effective method for tailoring large language
models (LLMs) to specialized tasks and applications. In this paper, we study
the privacy implications of fine-tuning LLMs on user data. To this end, we
define a realistic threat model, called user inference, wherein an attacker
infers whether or not a user's data was used for fine-tuning. We implement
attacks for this threat model that require only a small set of samples from a
user (possibly different from the samples used for training) and black-box
access to the fine-tuned LLM. We find that LLMs are susceptible to user
inference attacks across a variety of fine-tuning datasets, at times with near
perfect attack success rates. Further, we investigate which properties make
users vulnerable to user inference, finding that outlier users (i.e. those with
data distributions sufficiently different from other users) and users who
contribute large quantities of data are most susceptible to attack. Finally, we
explore several heuristics for mitigating privacy attacks. We find that
interventions in the training algorithm, such as batch or per-example gradient
clipping and early stopping fail to prevent user inference. However, limiting
the number of fine-tuning samples from a single user can reduce attack
effectiveness, albeit at the cost of reducing the total amount of fine-tuning
data.
- Abstract(参考訳): 微調整は、特殊なタスクやアプリケーションに大規模言語モデル(llm)を調整するための一般的かつ効果的な方法である。
本稿では,ユーザデータに対する微調整LDMのプライバシーへの影響について検討する。
この目的のために,攻撃者がユーザのデータを微調整に使用しているかどうかを推測する,ユーザ推論と呼ばれる現実的な脅威モデルを定義した。
この脅威モデルに対する攻撃は、ユーザからのサンプル(おそらくトレーニングで使用されるサンプルと異なる)と、微調整されたLDMへのブラックボックスアクセスのみを必要とする。
LLMは様々な微調整データセットをまたいだユーザ推測攻撃の影響を受けやすいことが分かり、攻撃成功率がほぼ完璧な場合もあります。
さらに、利用者がどの特性でユーザ推定に弱いかを調査し、外部ユーザ(つまり、他のユーザと十分に異なるデータ分布を持つユーザ)と大量のデータに貢献するユーザが最も攻撃を受けやすいことを確かめる。
最後に、プライバシー攻撃を緩和するためのいくつかのヒューリスティックを探求する。
バッチやサンプル毎の勾配クリッピングや早期停止といったトレーニングアルゴリズムの介入は、ユーザの推論を防げないことが分かりました。
しかしながら、単一ユーザからの微調整サンプル数を制限することは、微調整データの総量を減らすコストを犠牲にすることなく、攻撃効果を低減できる。
関連論文リスト
- Simultaneous Unlearning of Multiple Protected User Attributes From Variational Autoencoder Recommenders Using Adversarial Training [8.272412404173954]
本稿では,複数の保護属性を同時に学習して,人口統計学的グループ間の公平性を向上することを目的としたAdvXMultVAEを提案する。
LFM-2b-100k と Ml-1m の2つのデータセットに対する実験により,本手法は特異除去法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-28T12:36:00Z) - Prompt Tuning as User Inherent Profile Inference Machine [53.78398656789463]
本稿では,ユーザプロファイルの推測にプロンプトチューニングを用いるUserIP-Tuningを提案する。
プロファイル量子化コードブックは、プロファイル埋め込みによるモダリティギャップを協調IDにブリッジする。
4つの公開データセットの実験では、UserIP-Tuningは最先端のレコメンデーションアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2024-08-13T02:25:46Z) - SeGA: Preference-Aware Self-Contrastive Learning with Prompts for
Anomalous User Detection on Twitter [14.483830120541894]
本稿では,ユーザの異常検出のための自己コントラスト学習であるSeGAを提案する。
SeGAは、投稿を通じてユーザの好みを要約するために、大きな言語モデルを使用する。
モデル設計と事前学習戦略の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-12-17T05:35:28Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Membership Inference Attacks Against Latent Factor Model [0.0]
推奨項目のリストを取得するには、潜在因子モデルをレコメンダとして使用します。
シャドーレコメンデータは、攻撃モデルに対するラベル付きトレーニングデータを導出するために設定される。
実験データから,攻撃モデルのAUC指数が実データセットMovieLensで0.857に達することを示す。
論文 参考訳(メタデータ) (2022-12-15T08:16:08Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - FedCL: Federated Contrastive Learning for Privacy-Preserving
Recommendation [98.5705258907774]
FedCLは、プライバシーを十分に保護した効果的なモデルトレーニングのために、高品質な負のサンプルを利用することができる。
まず、各クライアントのローカルモデルを介してローカルユーザデータからユーザ埋め込みを推測し、その後、ローカルディファレンシャルプライバシ(LDP)で摂動する。
個々のユーザ埋め込みにはLDPによる重騒音が伴うため,ノイズの影響を軽減するため,サーバ上にユーザ埋め込みをクラスタ化することを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:37:10Z) - Personalized Adaptive Meta Learning for Cold-start User Preference
Prediction [46.65783845757707]
パーソナライズされたユーザーの嗜好予測における共通の課題は、コールドスタート問題である。
メジャーユーザとマイナーユーザの両方を考慮するために,新たなパーソナライズ型適応型メタラーニング手法を提案する。
本手法は, マイノリティとメジャーユーザの両方に対して, 最先端の手法を劇的に向上させる。
論文 参考訳(メタデータ) (2020-12-22T05:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。