論文の概要: Teach LLMs to Phish: Stealing Private Information from Language Models
- arxiv url: http://arxiv.org/abs/2403.00871v1
- Date: Fri, 1 Mar 2024 06:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:18:16.383093
- Title: Teach LLMs to Phish: Stealing Private Information from Language Models
- Title(参考訳): LLMをフィッシュに教える - 言語モデルから個人情報を盗む
- Authors: Ashwinee Panda, Christopher A. Choquette-Choo, Zhengming Zhang,
Yaoqing Yang, Prateek Mittal
- Abstract要約: 我々はニューラルフィッシングと呼ばれる新しい実用的なデータ抽出攻撃を提案する。
我々の攻撃は、ユーザデータの構造に関する曖昧な事前情報のみを用いて、相手が10秒の良性出現文をトレーニングデータセットに挿入できると仮定する。
- 参考スコア(独自算出の注目度): 41.24348056248685
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When large language models are trained on private data, it can be a
significant privacy risk for them to memorize and regurgitate sensitive
information. In this work, we propose a new practical data extraction attack
that we call "neural phishing". This attack enables an adversary to target and
extract sensitive or personally identifiable information (PII), e.g., credit
card numbers, from a model trained on user data with upwards of 10% attack
success rates, at times, as high as 50%. Our attack assumes only that an
adversary can insert as few as 10s of benign-appearing sentences into the
training dataset using only vague priors on the structure of the user data.
- Abstract(参考訳): 大規模言語モデルがプライベートデータ上でトレーニングされる場合、機密情報を記憶し、再現する上で重要なプライバシーリスクとなる可能性がある。
本研究では,ニューラルフィッシング(neural phishing)と呼ばれる新しい実用的なデータ抽出攻撃を提案する。
この攻撃により、攻撃成功率10%以上のユーザーデータに基づいてトレーニングされたモデルから、悪意のある個人識別情報(例えばクレジットカード番号)を50%までターゲットして抽出することができる。
攻撃は,ユーザデータの構造上の曖昧な事前情報のみを使用して,数十回程度の良質な文をトレーニングデータセットに挿入できると仮定する。
関連論文リスト
- FLTrojan: Privacy Leakage Attacks against Federated Language Models
Through Selective Weight Tampering [2.3811618212533663]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
最良性能の手法は、会員推算を29%改善し、最大70%の個人データ再構成を実現した。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - Defending Our Privacy With Backdoors [32.4692739098077]
本稿では,視覚言語モデルから個人情報を除去するためのバックドア攻撃に基づく,容易かつ効果的な防御手法を提案する。
我々は、センシティブなフレーズの埋め込みを、人名ではなく「人」の言葉の埋め込みと整合させる。
アプローチは、バックドア攻撃に対する新たな"デュアルユース"視点を提供するだけでなく、未計算のWebスクラッドデータでトレーニングされたモデル内の個人のプライバシを高めるための、有望な方法も提供します。
論文 参考訳(メタデータ) (2023-10-12T13:33:04Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Students Parrot Their Teachers: Membership Inference on Model
Distillation [54.392069096234074]
知識蒸留によるプライバシを,教師と学生のトレーニングセットの両方で研究する。
私たちの攻撃は、生徒セットと教師セットが類似している場合、または攻撃者が教師セットを毒できる場合、最強です。
論文 参考訳(メタデータ) (2023-03-06T19:16:23Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Machine unlearning via GAN [2.406359246841227]
機械学習モデル、特にディープラーニングモデルは、トレーニングデータに関する情報を意図せずに記憶することができる。
本稿では,深層モデルにおけるデータ削除のためのGANアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:28:57Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。