論文の概要: Evaluating LLM-based Personal Information Extraction and Countermeasures
- arxiv url: http://arxiv.org/abs/2408.07291v2
- Date: Thu, 30 Jan 2025 16:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-01 01:16:55.599169
- Title: Evaluating LLM-based Personal Information Extraction and Countermeasures
- Title(参考訳): LLMに基づく個人情報抽出と対策の評価
- Authors: Yupei Liu, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong,
- Abstract要約: 我々は,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行った。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
- 参考スコア(独自算出の注目度): 63.91918057570824
- License:
- Abstract: Automatically extracting personal information--such as name, phone number, and email address--from publicly available profiles at a large scale is a stepstone to many other security attacks including spear phishing. Traditional methods--such as regular expression, keyword search, and entity detection--achieve limited success at such personal information extraction. In this work, we perform a systematic measurement study to benchmark large language model (LLM) based personal information extraction and countermeasures. Towards this goal, we present a framework for LLM-based extraction attacks; collect four datasets including a synthetic dataset generated by GPT-4 and three real-world datasets with manually labeled eight categories of personal information; introduce a novel mitigation strategy based on prompt injection; and systematically benchmark LLM-based attacks and countermeasures using ten LLMs and five datasets. Our key findings include: LLM can be misused by attackers to accurately extract various personal information from personal profiles; LLM outperforms traditional methods; and prompt injection can defend against strong LLM-based attacks, reducing the attack to less effective traditional ones.
- Abstract(参考訳): 個人情報(名前、電話番号、メールアドレスなど)を大規模に公開しているプロフィールから自動的に抽出することは、槍のフィッシングを含む他の多くのセキュリティ攻撃の足掛かりとなる。
従来の手法(正規表現、キーワード検索、エンティティ検出など)は、そのような個人情報抽出において限られた成功を収めた。
本研究では,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行う。
本研究の目的は,LSMによる攻撃の枠組み,GPT-4で生成された合成データセットを含む4つのデータセットと,手動でラベル付けされた8つの個人情報を含む実世界のデータセット,即時注入に基づく新たな緩和戦略の導入,LSMによる攻撃と対策を10個のLCMと5つのデータセットを用いて体系的にベンチマークすることである。
LLMは個人プロファイルから様々な個人情報を正確に抽出するために攻撃者によって誤用され、LLMは従来の手法より優れており、インジェクションは強力なLSMベースの攻撃に対して防御でき、攻撃を効果的でない従来の攻撃に還元することができる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Sampling-based Pseudo-Likelihood for Membership Inference Attacks [36.62066767969338]
メンバーシップ推論攻撃(MIA)は、与えられたテキストがモデルのトレーニングデータに含まれるかどうかを決定する。
LLMによって生成されたテキストのみを用いてSPLを計算し,漏洩を検出するMIAのためのサンプリングベースPseudo-Likelihood(textbfSPL)手法を提案する。
論文 参考訳(メタデータ) (2024-04-17T11:12:59Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。