論文の概要: Evaluating LLM-based Personal Information Extraction and Countermeasures
- arxiv url: http://arxiv.org/abs/2408.07291v3
- Date: Fri, 31 Jan 2025 05:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 10:39:52.540737
- Title: Evaluating LLM-based Personal Information Extraction and Countermeasures
- Title(参考訳): LLMに基づく個人情報抽出と対策の評価
- Authors: Yupei Liu, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong,
- Abstract要約: 大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
- 参考スコア(独自算出の注目度): 63.91918057570824
- License:
- Abstract: Automatically extracting personal information -- such as name, phone number, and email address -- from publicly available profiles at a large scale is a stepstone to many other security attacks including spear phishing. Traditional methods -- such as regular expression, keyword search, and entity detection -- achieve limited success at such personal information extraction. In this work, we perform a systematic measurement study to benchmark large language model (LLM) based personal information extraction and countermeasures. Towards this goal, we present a framework for LLM-based extraction attacks; collect four datasets including a synthetic dataset generated by GPT-4 and three real-world datasets with manually labeled eight categories of personal information; introduce a novel mitigation strategy based on prompt injection; and systematically benchmark LLM-based attacks and countermeasures using ten LLMs and five datasets. Our key findings include: LLM can be misused by attackers to accurately extract various personal information from personal profiles; LLM outperforms traditional methods; and prompt injection can defend against strong LLM-based attacks, reducing the attack to less effective traditional ones.
- Abstract(参考訳): 個人情報(名前、電話番号、メールアドレスなど)を大規模な公開プロフィールから自動的に抽出することは、スピアフィッシングを含む他の多くのセキュリティ攻撃の足掛かりとなる。
正規表現、キーワード検索、エンティティ検出などの伝統的な手法は、そのような個人情報抽出において限られた成功を収める。
本研究では,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行う。
本研究の目的は,LSMによる攻撃の枠組み,GPT-4で生成された合成データセットを含む4つのデータセットと,手動でラベル付けされた8つの個人情報を含む実世界のデータセット,即時注入に基づく新たな緩和戦略の導入,LSMによる攻撃と対策を10個のLCMと5つのデータセットを用いて体系的にベンチマークすることである。
LLMは個人プロファイルから様々な個人情報を正確に抽出するために攻撃者によって誤用され、LLMは従来の手法より優れており、インジェクションは強力なLSMベースの攻撃に対して防御でき、攻撃を効果的でない従来の攻撃に還元することができる。
関連論文リスト
- Model Inversion in Split Learning for Personalized LLMs: New Insights from Information Bottleneck Theory [11.83473842859642]
この研究は、パーソナライズされたLLMのための分割学習フレームワークにおいて、モデル反転攻撃を識別する最初のものである。
本稿では,第1部が埋め込み空間に表現を投影する2段階攻撃システムを提案し,第2部は生成モデルを用いて埋め込み空間からテキストを復元する。
論文 参考訳(メタデータ) (2025-01-10T13:47:13Z) - MemHunter: Automated and Verifiable Memorization Detection at Dataset-scale in LLMs [28.593941036010417]
本稿では,メモリ駆動型LDMをトレーニングし,仮説テストを用いて,データセットレベルでのメモリ化を効率的に検出するMemHunterを紹介する。
MemHunterは、データセットレベルの記憶検出が可能な最初の方法であり、大規模データセットのプライバシーリスクを評価する重要なツールを提供する。
論文 参考訳(メタデータ) (2024-12-10T07:42:46Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - On Extracting Specialized Code Abilities from Large Language Models: A
Feasibility Study [22.265542509143756]
大規模言語モデル(LLM)における模倣攻撃の実現可能性について検討する。
攻撃者は、中規模のバックボーンモデルを訓練して、ターゲットのLLMに似た特殊なコード動作を再現できることを示す。
論文 参考訳(メタデータ) (2023-03-06T10:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。