論文の概要: PerProb: Indirectly Evaluating Memorization in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.14600v1
- Date: Tue, 16 Dec 2025 17:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.807992
- Title: PerProb: Indirectly Evaluating Memorization in Large Language Models
- Title(参考訳): PerProb: 大規模言語モデルのメモリ化を間接的に評価する
- Authors: Yihan Liao, Jacky Keung, Xiaoxue Ma, Jingyu Zhang, Yicheng Sun,
- Abstract要約: LLM脆弱性を間接的に評価するためのラベルフリーフレームワークであるPerProbを提案する。
PerProbは、被害者モデルと敵対モデルによって生成されたデータ間の難易度と平均ログ確率の変化を評価する。
PerProbの有効性を5つのデータセットで評価し、さまざまなメモリ挙動とプライバシリスクを明らかにした。
- 参考スコア(独自算出の注目度): 13.905375956316632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has been driven by extensive datasets that may contain sensitive information, raising serious privacy concerns. One notable threat is the Membership Inference Attack (MIA), where adversaries infer whether a specific sample was used in model training. However, the true impact of MIA on LLMs remains unclear due to inconsistent findings and the lack of standardized evaluation methods, further complicated by the undisclosed nature of many LLM training sets. To address these limitations, we propose PerProb, a unified, label-free framework for indirectly assessing LLM memorization vulnerabilities. PerProb evaluates changes in perplexity and average log probability between data generated by victim and adversary models, enabling an indirect estimation of training-induced memory. Compared with prior MIA methods that rely on member/non-member labels or internal access, PerProb is independent of model and task, and applicable in both black-box and white-box settings. Through a systematic classification of MIA into four attack patterns, we evaluate PerProb's effectiveness across five datasets, revealing varying memory behaviors and privacy risks among LLMs. Additionally, we assess mitigation strategies, including knowledge distillation, early stopping, and differential privacy, demonstrating their effectiveness in reducing data leakage. Our findings offer a practical and generalizable framework for evaluating and improving LLM privacy.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、機密情報を含む可能性のある広範なデータセットによって推進され、深刻なプライバシー上の懸念が提起されている。
特筆すべき脅威は、モデルトレーニングで特定のサンプルが使用されたかどうかを敵が推測するメンバーシップ推論攻撃(MIA)である。
しかし,MIAがLSMに与える真の影響は,不整合性や標準化された評価方法の欠如から明らかであり,多くのLSMトレーニングセットの未公表の性質によってさらに複雑になる。
これらの制約に対処するため, LLMメモリ化脆弱性を間接的に評価する, ラベルフリーの統一フレームワークPerProbを提案する。
PerProbは、被害者モデルと敵対モデルによって生成されたデータ間のパープレキシティと平均ログ確率の変化を評価し、トレーニングによるメモリの間接的な推定を可能にする。
メンバー/非メンバーラベルや内部アクセスに依存する以前のMIAメソッドと比較すると、PerProbはモデルとタスクとは独立しており、ブラックボックスとホワイトボックスの両方に適用される。
MIAを4つの攻撃パターンに分類することにより、PerProbの有効性を5つのデータセットで評価し、LCM間で異なるメモリ挙動とプライバシリスクを明らかにする。
さらに、知識蒸留、早期停止、差分プライバシーを含む緩和戦略を評価し、データ漏洩を減らす効果を実証する。
LLMプライバシの評価と改善のための実用的で汎用的なフレームワークを提供する。
関連論文リスト
- Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks [21.852575873751917]
推論攻撃は、プライバシーと機密ドメインへの信頼に深刻な脅威をもたらす。
我々は、新しいモデルに依存しない防衛フレームワーク、Ensemble Privacy Defense (EPD)を導入する。
EPDは、推理時間ベースラインと比較して、SFTで27.8%、RAGで526.3%のMIA成功を減少させる。
論文 参考訳(メタデータ) (2025-12-01T18:12:18Z) - Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning [20.018234150653885]
大規模言語モデル(LLM)は、センシティブで人間の生成したデータを埋め込んで、未学習の方法の必要性を喚起する。
既存のフレームワークの盲点を強調するために,補完的な少数派対応評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-11T17:22:07Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。