Fugu-MT 論文翻訳(概要): Evaluating LLM-based Personal Information Extraction and Countermeasures

論文の概要: Evaluating LLM-based Personal Information Extraction and Countermeasures

arxiv url: http://arxiv.org/abs/2408.07291v2
Date: Thu, 30 Jan 2025 16:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.847313
Title: Evaluating LLM-based Personal Information Extraction and Countermeasures
Title（参考訳）: LLMに基づく個人情報抽出と対策の評価
Authors: Yupei Liu, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong,
Abstract要約: 我々は,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行った。 LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
参考スコア（独自算出の注目度）: 63.91918057570824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically extracting personal information--such as name, phone number, and email address--from publicly available profiles at a large scale is a stepstone to many other security attacks including spear phishing. Traditional methods--such as regular expression, keyword search, and entity detection--achieve limited success at such personal information extraction. In this work, we perform a systematic measurement study to benchmark large language model (LLM) based personal information extraction and countermeasures. Towards this goal, we present a framework for LLM-based extraction attacks; collect four datasets including a synthetic dataset generated by GPT-4 and three real-world datasets with manually labeled eight categories of personal information; introduce a novel mitigation strategy based on prompt injection; and systematically benchmark LLM-based attacks and countermeasures using ten LLMs and five datasets. Our key findings include: LLM can be misused by attackers to accurately extract various personal information from personal profiles; LLM outperforms traditional methods; and prompt injection can defend against strong LLM-based attacks, reducing the attack to less effective traditional ones.
Abstract（参考訳）: 個人情報(名前、電話番号、メールアドレスなど)を大規模に公開しているプロフィールから自動的に抽出することは、槍のフィッシングを含む他の多くのセキュリティ攻撃の足掛かりとなる。従来の手法(正規表現、キーワード検索、エンティティ検出など)は、そのような個人情報抽出において限られた成功を収めた。本研究では,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行う。本研究の目的は,LSMによる攻撃の枠組み,GPT-4で生成された合成データセットを含む4つのデータセットと,手動でラベル付けされた8つの個人情報を含む実世界のデータセット,即時注入に基づく新たな緩和戦略の導入,LSMによる攻撃と対策を10個のLCMと5つのデータセットを用いて体系的にベンチマークすることである。 LLMは個人プロファイルから様々な個人情報を正確に抽出するために攻撃者によって誤用され、LLMは従来の手法より優れており、インジェクションは強力なLSMベースの攻撃に対して防御でき、攻撃を効果的でない従来の攻撃に還元することができる。

関連論文リスト

LLM4MEA: Data-free Model Extraction Attacks on Sequential Recommenders via Large Language Models [50.794651919028965]
近年の研究では、モデル抽出攻撃(MEA)に対するシーケンシャルレコメンデータシステムの脆弱性が実証されている。事前のMEAにおけるブラックボックス攻撃は、データ選択のランダムサンプリングによるレコメンデータシステムの脆弱性を明らかにするのに効果がない。 LLM4MEAは,Large Language Models (LLMs) を人間のようなランク付けとして活用してデータを生成する新しいモデル抽出法である。
論文参考訳（メタデータ） (2025-07-22T19:20:23Z)
Model Inversion in Split Learning for Personalized LLMs: New Insights from Information Bottleneck Theory [11.83473842859642]
この研究は、パーソナライズされたLLMのための分割学習フレームワークにおいて、モデル反転攻撃を識別する最初のものである。本稿では,第1部が埋め込み空間に表現を投影する2段階攻撃システムを提案し,第2部は生成モデルを用いて埋め込み空間からテキストを復元する。
論文参考訳（メタデータ） (2025-01-10T13:47:13Z)
MemHunter: Automated and Verifiable Memorization Detection at Dataset-scale in LLMs [28.593941036010417]
本稿では,メモリ駆動型LDMをトレーニングし,仮説テストを用いて,データセットレベルでのメモリ化を効率的に検出するMemHunterを紹介する。 MemHunterは、データセットレベルの記憶検出が可能な最初の方法であり、大規模データセットのプライバシーリスクを評価する重要なツールを提供する。
論文参考訳（メタデータ） (2024-12-10T07:42:46Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。 73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文参考訳（メタデータ） (2024-09-18T23:59:32Z)
LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文参考訳（メタデータ） (2024-08-23T01:37:29Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Sampling-based Pseudo-Likelihood for Membership Inference Attacks [36.62066767969338]
メンバーシップ推論攻撃(MIA)は、与えられたテキストがモデルのトレーニングデータに含まれるかどうかを決定する。 LLMによって生成されたテキストのみを用いてSPLを計算し,漏洩を検出するMIAのためのサンプリングベースPseudo-Likelihood(textbfSPL)手法を提案する。
論文参考訳（メタデータ） (2024-04-17T11:12:59Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文参考訳（メタデータ） (2023-09-27T15:15:23Z)
Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-09-12T16:39:41Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
On Extracting Specialized Code Abilities from Large Language Models: A Feasibility Study [22.265542509143756]
大規模言語モデル(LLM)における模倣攻撃の実現可能性について検討する。攻撃者は、中規模のバックボーンモデルを訓練して、ターゲットのLLMに似た特殊なコード動作を再現できることを示す。
論文参考訳（メタデータ） (2023-03-06T10:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。