論文の概要: Evaluating Large Language Model based Personal Information Extraction and Countermeasures
- arxiv url: http://arxiv.org/abs/2408.07291v1
- Date: Wed, 14 Aug 2024 04:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:13:57.317889
- Title: Evaluating Large Language Model based Personal Information Extraction and Countermeasures
- Title(参考訳): 個人情報抽出と対策による大規模言語モデルの評価
- Authors: Yupei Liu, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong,
- Abstract要約: 大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
- 参考スコア(独自算出の注目度): 63.91918057570824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically extracting personal information--such as name, phone number, and email address--from publicly available profiles at a large scale is a stepstone to many other security attacks including spear phishing. Traditional methods--such as regular expression, keyword search, and entity detection--achieve limited success at such personal information extraction. In this work, we perform a systematic measurement study to benchmark large language model (LLM) based personal information extraction and countermeasures. Towards this goal, we present a framework for LLM-based extraction attacks; collect three datasets including a synthetic dataset generated by GPT-4 and two real-world datasets with manually labeled 8 categories of personal information; introduce a novel mitigation strategy based on \emph{prompt injection}; and systematically benchmark LLM-based attacks and countermeasures using 10 LLMs and our 3 datasets. Our key findings include: LLM can be misused by attackers to accurately extract various personal information from personal profiles; LLM outperforms conventional methods at such extraction; and prompt injection can mitigate such risk to a large extent and outperforms conventional countermeasures. Our code and data are available at: \url{https://github.com/liu00222/LLM-Based-Personal-Profile-Extraction}.
- Abstract(参考訳): 個人情報(名前、電話番号、メールアドレスなど)を大規模に公開しているプロフィールから自動的に抽出することは、槍のフィッシングを含む他の多くのセキュリティ攻撃の足掛かりとなる。
従来の手法(正規表現、キーワード検索、エンティティ検出など)は、そのような個人情報抽出において限られた成功を収めた。
本研究では,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行う。
本研究の目的は,LSMによる抽出攻撃の枠組み,GPT-4で生成された合成データセットと,手動でラベル付けされた8つの個人情報を含む2つの実世界のデータセットを含む3つのデータセットの収集,emph{prompt Injection}に基づく新たな緩和戦略の導入,LSMベースの攻撃と対策を10LLMと我々の3つのデータセットを用いて体系的にベンチマークすることである。
LLMは、個人プロファイルから様々な個人情報を正確に抽出するために、攻撃者によって誤用され得ること、LLMは、そのような抽出において従来の方法より優れていること、迅速な注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れていること、などである。
コードとデータは以下の通りである。 \url{https://github.com/liu00222/LLM-Based-Personal-Profile-Extraction}。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Sampling-based Pseudo-Likelihood for Membership Inference Attacks [36.62066767969338]
メンバーシップ推論攻撃(MIA)は、与えられたテキストがモデルのトレーニングデータに含まれるかどうかを決定する。
LLMによって生成されたテキストのみを用いてSPLを計算し,漏洩を検出するMIAのためのサンプリングベースPseudo-Likelihood(textbfSPL)手法を提案する。
論文 参考訳(メタデータ) (2024-04-17T11:12:59Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。