論文の概要: Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2605.06423v1
- Date: Thu, 07 May 2026 15:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.940905
- Title: Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models
- Title(参考訳): Pop Quiz攻撃:ブラックボックスのメンバーシップ推論が大規模言語モデルに対する攻撃
- Authors: Zeyuan Chen, Yihan Ma, Xinyue Shen, Michael Backes, Yang Zhang,
- Abstract要約: 大規模言語モデル(LLM)は多くのアプリケーションで高いパフォーマンスを示していますが、トレーニングデータを記憶し、潜在的に明らかにする能力は、深刻なプライバシー上の懸念を引き起こします。
我々は、モデルが特定のトレーニング例をリコールできるかどうかをテストするブラックボックスメンバーシップ推論攻撃であるPopQuiz Attackを紹介した。
提案手法は平均 0.873 のROC-AUC を達成し,既存のアプローチを20.6% 上回っている。
- 参考スコア(独自算出の注目度): 28.263511777774056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show strong performance across many applications, but their ability to memorize and potentially reveal training data raises serious privacy concerns. We introduce the PopQuiz Attack, a black-box membership inference attack that tests whether a model can recall specific training examples. The core idea is to turn target data into quiz-style multiple-choice questions and infer membership from the model's answers. Across six widely used LLMs (GPT-3.5, GPT-4o, LLaMA2-7b, LLaMA2-13b, Mistral-7b, and Vicuna-7b) and four datasets, our method achieves an average ROC-AUC of 0.873 and outperforms existing approaches by 20.6%. We further analyze factors affecting attack success, including query complexity, data type, data structure, and training settings. We also evaluate instruction-based, filter-based, and differential privacy-based defenses, which reduce performance but do not eliminate the risk. Our results highlight persistent privacy vulnerabilities in modern LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのアプリケーションで高いパフォーマンスを示していますが、トレーニングデータを記憶し、潜在的に明らかにする能力は、深刻なプライバシー上の懸念を引き起こします。
我々は、モデルが特定のトレーニング例をリコールできるかどうかをテストするブラックボックスメンバーシップ推論攻撃であるPopQuiz Attackを紹介した。
中心となる考え方は、ターゲットデータをクイズスタイルの多重選択質問に変換し、モデルの回答からメンバーシップを推測することである。
GPT-3.5, GPT-4o, LLaMA2-7b, LLaMA2-13b, Mistral-7b, Vicuna-7b) と4つのデータセットのうち, 平均ROC-AUC 0.873 を達成し, 既存のアプローチを20.6%上回った。
さらに、クエリ複雑性、データタイプ、データ構造、トレーニング設定など、攻撃成功に影響する要因を分析します。
また、命令ベース、フィルタベース、および差分プライバシーベースの防御も評価し、性能を低下させるが、リスクを排除しない。
我々の結果は、現代のLSMにおける永続的なプライバシーの脆弱性を強調します。
関連論文リスト
- PerProb: Indirectly Evaluating Memorization in Large Language Models [13.905375956316632]
LLM脆弱性を間接的に評価するためのラベルフリーフレームワークであるPerProbを提案する。
PerProbは、被害者モデルと敵対モデルによって生成されたデータ間の難易度と平均ログ確率の変化を評価する。
PerProbの有効性を5つのデータセットで評価し、さまざまなメモリ挙動とプライバシリスクを明らかにした。
論文 参考訳(メタデータ) (2025-12-16T17:10:01Z) - Exploring the limits of strong membership inference attacks on large language models [70.49900359876595]
最先端メンバーシップ推論攻撃 (MIA) は通常、多くの参照モデルを訓練する必要がある。
事前訓練された言語モデルでは強力なMIAが成功するが,その有効性は限られている。
論文 参考訳(メタデータ) (2025-05-24T16:23:43Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。