論文の概要: User Inference Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2310.09266v2
- Date: Fri, 23 Feb 2024 20:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:09:17.815595
- Title: User Inference Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルに対するユーザ推論攻撃
- Authors: Nikhil Kandpal, Krishna Pillutla, Alina Oprea, Peter Kairouz,
Christopher A. Choquette-Choo, Zheng Xu
- Abstract要約: ファインチューニング(英: Fine-tuning)は、大規模言語モデル(LLM)を特定のタスクやアプリケーションに合わせるための、一般的で効果的な方法である。
ユーザデータに対する微調整LDMのプライバシーへの影響について検討する。
- 参考スコア(独自算出の注目度): 26.616016510555088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is a common and effective method for tailoring large language
models (LLMs) to specialized tasks and applications. In this paper, we study
the privacy implications of fine-tuning LLMs on user data. To this end, we
consider a realistic threat model, called user inference, wherein an attacker
infers whether or not a user's data was used for fine-tuning. We design attacks
for performing user inference that require only black-box access to the
fine-tuned LLM and a few samples from a user which need not be from the
fine-tuning dataset. We find that LLMs are susceptible to user inference across
a variety of fine-tuning datasets, at times with near perfect attack success
rates. Further, we theoretically and empirically investigate the properties
that make users vulnerable to user inference, finding that outlier users, users
with identifiable shared features between examples, and users that contribute a
large fraction of the fine-tuning data are most susceptible to attack. Based on
these findings, we identify several methods for mitigating user inference
including training with example-level differential privacy, removing
within-user duplicate examples, and reducing a user's contribution to the
training data. While these techniques provide partial mitigation of user
inference, we highlight the need to develop methods to fully protect fine-tuned
LLMs against this privacy risk.
- Abstract(参考訳): 微調整は、特殊なタスクやアプリケーションに大規模言語モデル(llm)を調整するための一般的かつ効果的な方法である。
本稿では,ユーザデータに対する微調整LDMのプライバシーへの影響について検討する。
この目的のために,攻撃者がユーザのデータを微調整に使用しているかどうかを推測する,ユーザ推論と呼ばれる現実的な脅威モデルを検討する。
我々は、微調整LDMへのブラックボックスアクセスのみを必要とするユーザ推論と、微調整データセットから必要のないユーザからのサンプルを設計する。
LLMは、様々な微調整データセットのユーザ推論に影響を受けやすいが、攻撃成功率がほぼ完璧な場合もあります。
さらに,ユーザをユーザ推論に脆弱にする特性を理論的に実証的に検討し,外れたユーザ,実例間で識別可能な共有機能を持つユーザ,微調整データの大部分が攻撃の影響を受けやすいユーザなどについて検討した。
これらの結果から,サンプルレベルの差分プライバシによるトレーニング,ユーザ内重複例の削除,トレーニングデータへのユーザの貢献の低減など,ユーザ推論を緩和するいくつかの手法を同定した。
これらの技術はユーザ推論の一部を緩和するが、このプライバシーリスクに対して微調整LDMを完全に保護する手法を開発する必要性を強調している。
関連論文リスト
- Democratizing Large Language Models via Personalized Parameter-Efficient
Fine-tuning [39.0799671550279]
大規模言語モデル(LLM)のパーソナライゼーションはますます重要になっている。
1つのPEFT Per User (OPPU) は、パーソナライズされたパラメータ効率の微調整(PEFT)モジュールを使用して、ユーザ固有の行動パターンと好みを保存する。
OPPUは、LaMPベンチマークの7つのタスクで既存のプロンプトベースのメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-06T21:03:52Z) - SeGA: Preference-Aware Self-Contrastive Learning with Prompts for
Anomalous User Detection on Twitter [14.483830120541894]
本稿では,ユーザの異常検出のための自己コントラスト学習であるSeGAを提案する。
SeGAは、投稿を通じてユーザの好みを要約するために、大きな言語モデルを使用する。
モデル設計と事前学習戦略の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-12-17T05:35:28Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Membership Inference Attacks Against Latent Factor Model [0.0]
推奨項目のリストを取得するには、潜在因子モデルをレコメンダとして使用します。
シャドーレコメンデータは、攻撃モデルに対するラベル付きトレーニングデータを導出するために設定される。
実験データから,攻撃モデルのAUC指数が実データセットMovieLensで0.857に達することを示す。
論文 参考訳(メタデータ) (2022-12-15T08:16:08Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - FedCL: Federated Contrastive Learning for Privacy-Preserving
Recommendation [98.5705258907774]
FedCLは、プライバシーを十分に保護した効果的なモデルトレーニングのために、高品質な負のサンプルを利用することができる。
まず、各クライアントのローカルモデルを介してローカルユーザデータからユーザ埋め込みを推測し、その後、ローカルディファレンシャルプライバシ(LDP)で摂動する。
個々のユーザ埋め込みにはLDPによる重騒音が伴うため,ノイズの影響を軽減するため,サーバ上にユーザ埋め込みをクラスタ化することを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:37:10Z) - Personalized Adaptive Meta Learning for Cold-start User Preference
Prediction [46.65783845757707]
パーソナライズされたユーザーの嗜好予測における共通の課題は、コールドスタート問題である。
メジャーユーザとマイナーユーザの両方を考慮するために,新たなパーソナライズ型適応型メタラーニング手法を提案する。
本手法は, マイノリティとメジャーユーザの両方に対して, 最先端の手法を劇的に向上させる。
論文 参考訳(メタデータ) (2020-12-22T05:48:08Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。