論文の概要: Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18773v1
- Date: Sat, 24 May 2025 16:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.651859
- Title: Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
- Title(参考訳): 大規模データセットと(現代)大規模言語モデルに対する強力なメンバーシップ推論攻撃
- Authors: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper,
- Abstract要約: 最先端メンバシップ推論攻撃(MIA)は通常、多くの参照モデルをトレーニングする必要があるため、これらの攻撃を大きな事前訓練された言語モデル(LLM)に拡張することは困難である。
この問題に対処するには、最強MIAの1つであるLiRAを10Mから1BパラメータのGPT-2アーキテクチャに拡張し、C4データセットから20B以上のトークン上で参照モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 38.27329422174473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art membership inference attacks (MIAs) typically require training many reference models, making it difficult to scale these attacks to large pre-trained language models (LLMs). As a result, prior research has either relied on weaker attacks that avoid training reference models (e.g., fine-tuning attacks), or on stronger attacks applied to small-scale models and datasets. However, weaker attacks have been shown to be brittle - achieving close-to-arbitrary success - and insights from strong attacks in simplified settings do not translate to today's LLMs. These challenges have prompted an important question: are the limitations observed in prior work due to attack design choices, or are MIAs fundamentally ineffective on LLMs? We address this question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures ranging from 10M to 1B parameters, training reference models on over 20B tokens from the C4 dataset. Our results advance the understanding of MIAs on LLMs in three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings; and, (3) the relationship between MIA success and related privacy metrics is not as straightforward as prior work has suggested.
- Abstract(参考訳): 最先端メンバシップ推論攻撃(MIA)は通常、多くの参照モデルをトレーニングする必要があるため、これらの攻撃を大きな事前訓練された言語モデル(LLM)に拡張することは困難である。
その結果、以前の研究では、トレーニング参照モデル(例えば、微調整攻撃)を避けたより弱い攻撃や、小規模モデルやデータセットに適用されるより強力な攻撃に依存していた。
しかし、より弱い攻撃は脆く(概略的な成功を達成)、単純化された設定での強力な攻撃からの洞察は、今日のLLMには当てはまらない。
これらの課題は重要な問題を引き起こしている: 事前の作業において攻撃設計の選択による制限が観察されているか、あるいは、MIAがLLMに根本的な効果がないか?
この問題に対処するには、最強MIAの1つであるLiRAを10Mから1BパラメータのGPT-2アーキテクチャに拡張し、C4データセットから20B以上のトークン上で参照モデルをトレーニングする。
本研究は,(1)LLM上でのMIAの理解を3つの重要な方法で進める。(1) 強いMIAが事前訓練されたLLMで成功すること,(2) 有効性は,実用環境では限定的(例: AUC<0.7)であり,(3) MIAの成功と関連するプライバシ指標との関係は,従来の作業が示唆したほど単純ではない。
関連論文リスト
- EM-MIAs: Enhancing Membership Inference Attacks in Large Language Models through Ensemble Modeling [2.494935495983421]
本稿では,XGBoostをベースとしたモデルに既存のMIA技術を統合し,全体的な攻撃性能(EM-MIAs)を向上させる新しいアンサンブル攻撃法を提案する。
実験結果から,アンサンブルモデルではAUC-ROCと精度が,大規模言語モデルやデータセットを対象とする個別攻撃法と比較して有意に向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-23T03:47:54Z) - Order of Magnitude Speedups for LLM Membership Inference [5.124111136127848]
大規模言語モデル(LLM)は、コンピューティングを広く革新させるという約束を持っているが、その複雑さと広範なトレーニングデータもまた、プライバシの脆弱性を露呈している。
LLMに関連する最も単純なプライバシーリスクの1つは、メンバーシップ推論攻撃(MIA)に対する感受性である。
文書がモデルのトレーニングセットに属しているか否かを判断するために,小さな量子レグレッションモデルのアンサンブルを利用する低コストMIAを提案する。
論文 参考訳(メタデータ) (2024-09-22T16:18:14Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Practical Membership Inference Attacks Against Large-Scale Multi-Modal
Models: A Pilot Study [17.421886085918608]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングにデータポイントを使用したかどうかを推測することを目的としている。
これらの攻撃は、潜在的なプライバシー上の脆弱性を特定し、個人データの不正使用を検出するために使用できる。
本稿では,大規模マルチモーダルモデルに対する実用的なMIAの開発に向けて第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-09-29T19:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。