論文の概要: Teach LLMs to Phish: Stealing Private Information from Language Models
- arxiv url: http://arxiv.org/abs/2403.00871v1
- Date: Fri, 1 Mar 2024 06:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:18:16.383093
- Title: Teach LLMs to Phish: Stealing Private Information from Language Models
- Title(参考訳): LLMをフィッシュに教える - 言語モデルから個人情報を盗む
- Authors: Ashwinee Panda, Christopher A. Choquette-Choo, Zhengming Zhang,
Yaoqing Yang, Prateek Mittal
- Abstract要約: 我々はニューラルフィッシングと呼ばれる新しい実用的なデータ抽出攻撃を提案する。
我々の攻撃は、ユーザデータの構造に関する曖昧な事前情報のみを用いて、相手が10秒の良性出現文をトレーニングデータセットに挿入できると仮定する。
- 参考スコア(独自算出の注目度): 41.24348056248685
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When large language models are trained on private data, it can be a
significant privacy risk for them to memorize and regurgitate sensitive
information. In this work, we propose a new practical data extraction attack
that we call "neural phishing". This attack enables an adversary to target and
extract sensitive or personally identifiable information (PII), e.g., credit
card numbers, from a model trained on user data with upwards of 10% attack
success rates, at times, as high as 50%. Our attack assumes only that an
adversary can insert as few as 10s of benign-appearing sentences into the
training dataset using only vague priors on the structure of the user data.
- Abstract(参考訳): 大規模言語モデルがプライベートデータ上でトレーニングされる場合、機密情報を記憶し、再現する上で重要なプライバシーリスクとなる可能性がある。
本研究では,ニューラルフィッシング(neural phishing)と呼ばれる新しい実用的なデータ抽出攻撃を提案する。
この攻撃により、攻撃成功率10%以上のユーザーデータに基づいてトレーニングされたモデルから、悪意のある個人識別情報(例えばクレジットカード番号)を50%までターゲットして抽出することができる。
攻撃は,ユーザデータの構造上の曖昧な事前情報のみを使用して,数十回程度の良質な文をトレーニングデータセットに挿入できると仮定する。
関連論文リスト
- Persistent Pre-Training Poisoning of LLMs [71.53046642099142]
我々の研究は、事前学習中に言語モデルも妥協できるかどうかを初めて評価した。
我々は、有害な敵に対する影響を測定するために、スクラッチから一連のLSMを事前訓練する。
我々の主な結果は、モデルの事前トレーニングデータセットの0.1%しか中毒にならず、4つの攻撃のうち3つがポストトレーニングを通じて持続するのに十分であるということです。
論文 参考訳(メタデータ) (2024-10-17T16:27:13Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - Defending Our Privacy With Backdoors [29.722113621868978]
本稿では,視覚言語モデルから個人情報を除去するためのバックドア攻撃に基づく,容易かつ効果的な防御手法を提案する。
具体的には, テキストエンコーダにバックドアを戦略的に挿入することにより, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。
このアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供し、未計算のWebスクラッドデータでトレーニングされたモデル内の個人のプライバシを高めるための、有望な道を示す。
論文 参考訳(メタデータ) (2023-10-12T13:33:04Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Machine unlearning via GAN [2.406359246841227]
機械学習モデル、特にディープラーニングモデルは、トレーニングデータに関する情報を意図せずに記憶することができる。
本稿では,深層モデルにおけるデータ削除のためのGANアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:28:57Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。