論文の概要: R.R.: Unveiling LLM Training Privacy through Recollection and Ranking
- arxiv url: http://arxiv.org/abs/2502.12658v1
- Date: Tue, 18 Feb 2025 09:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:56.448386
- Title: R.R.: Unveiling LLM Training Privacy through Recollection and Ranking
- Title(参考訳): R.R.:リコールとランク付けによるLLMトレーニングプライバシの公開
- Authors: Wenlong Meng, Zhenyuan Guo, Lenan Wu, Chen Gong, Wenyan Liu, Weixian Li, Chengkun Wei, Wenzhi Chen,
- Abstract要約: 大規模言語モデル(LLM)は、暗黙の暗記によるトレーニングデータを漏洩させる可能性のある、重大なプライバシーリスクを生じさせる。
R.R.(Recollect and Rank)は、攻撃者が盗難データからPIIエンティティを再構築できる新しい2段階のプライバシ盗難攻撃である。
3つの人気のあるPIIデータセットに対する実験により、R.R.はベースラインよりもPIIと同等の性能が向上していることが示された。
- 参考スコア(独自算出の注目度): 17.12953978321457
- License:
- Abstract: Large Language Models (LLMs) pose significant privacy risks, potentially leaking training data due to implicit memorization. Existing privacy attacks primarily focus on membership inference attacks (MIAs) or data extraction attacks, but reconstructing specific personally identifiable information (PII) in LLM's training data remains challenging. In this paper, we propose R.R. (Recollect and Rank), a novel two-step privacy stealing attack that enables attackers to reconstruct PII entities from scrubbed training data where the PII entities have been masked. In the first stage, we introduce a prompt paradigm named recollection, which instructs the LLM to repeat a masked text but fill in masks. Then we can use PII identifiers to extract recollected PII candidates. In the second stage, we design a new criterion to score each PII candidate and rank them. Motivated by membership inference, we leverage the reference model as a calibration to our criterion. Experiments across three popular PII datasets demonstrate that the R.R. achieves better PII identical performance compared to baselines. These results highlight the vulnerability of LLMs to PII leakage even when training data has been scrubbed. We release the replicate package of R.R. at a link.
- Abstract(参考訳): 大規模言語モデル(LLM)は、暗黙の暗記によるトレーニングデータを漏洩させる可能性のある、重大なプライバシーリスクを生じさせる。
既存のプライバシ攻撃は主にメンバーシップ推論攻撃(MIA)やデータ抽出攻撃に重点を置いているが、LLMのトレーニングデータから特定個人識別情報(PII)を再構成することは依然として困難である。
本稿では、攻撃者がPIIを隠蔽した訓練データからPIIエンティティを再構築する2段階のプライバシー盗難攻撃であるR.R.(Recollect and Rank)を提案する。
第1段階では、マスク付きテキストを繰り返すがマスクを埋めるようにLCMに指示するrecollectionというプロンプトパラダイムを導入する。
次に、PII識別子を使用して、再コンパイルされたPII候補を抽出する。
第2段階では、各PII候補をスコア付けしてランク付けする新しい基準を設計する。
メンバーシップ推論によって動機づけられた基準モデルは、基準基準のキャリブレーションとして活用する。
3つの人気のあるPIIデータセットに対する実験により、R.R.はベースラインよりもPIIと同一のパフォーマンスが優れていることが示された。
これらの結果は、トレーニングデータがスクラブされた場合でも、PIIリークに対するLLMの脆弱性を浮き彫りにする。
我々はR.R.の複製パッケージをリンクでリリースする。
関連論文リスト
- PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage [78.33839735526769]
LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks [19.364127374679253]
我々は,言語モデルにおける事前学習データから忘れられたPIIを復元するために,微調整インタフェースを利用した新しい攻撃であるJanusを提案する。
実験の結果,Janusはベースラインに比べて10倍以上のプライバシーリスクを増幅していることがわかった。
分析の結果,OpenAIとAzure AI Studioが提供する既存の微調整APIがJanus攻撃の影響を受けやすいことが確認された。
論文 参考訳(メタデータ) (2023-10-24T02:48:19Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - Analyzing Leakage of Personally Identifiable Information in Language
Models [13.467340359030855]
言語モデル (LM) は, 文レベルのメンバシップ推論と再構築攻撃を通じて, トレーニングデータに関する情報を漏らすことが示されている。
スクレイビング技術は減少するが、PII漏れのリスクを防止しない。
ユーザーレベルのプライバシーを保証し、PIIの開示を防止するために設計された、差分プライバシーのようなアルゴリズムによる防御の程度は不明確である。
論文 参考訳(メタデータ) (2023-02-01T16:04:48Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。