論文の概要: SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)
- arxiv url: http://arxiv.org/abs/2406.17975v2
- Date: Mon, 07 Oct 2024 17:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:16.817174
- Title: SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)
- Title(参考訳): SoK:LSMの会員推論攻撃は、どこにもない(そしてそれをどう修正するか)
- Authors: Matthieu Meeus, Igor Shilov, Shubham Jain, Manuel Faysse, Marek Rei, Yves-Alexandre de Montjoye,
- Abstract要約: LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定された-しかしランダム化された-レコードやモデルに依存する従来のMIAとは対照的に、これらの手法は主にポストホックで収集されたデータセットに基づいて評価される。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
- 参考スコア(独自算出の注目度): 16.673210422615348
- License:
- Abstract: Whether LLMs memorize their training data and what this means, from privacy leakage to detecting copyright violations -- has become a rapidly growing area of research over the last two years. In recent months, more than 10 new methods have been proposed to perform Membership Inference Attacks (MIAs) against LLMs. Contrary to traditional MIAs which rely on fixed -- but randomized -- records or models, these methods are mostly evaluated on datasets collected post-hoc. Sets of members and non-members, used to evaluate the MIA, are constructed using informed guesses after the release of a model. This lack of randomization raises concerns of a distribution shift between members and non-members. In the first part, we review the literature on MIAs against LLMs. While most work focuses on sequence-level MIAs evaluated in post-hoc setups, we show that a range of target models, motivations and units of interest have been considered in the literature. We then quantify distribution shifts present in the 6 datasets used in the literature, ranging from books to papers, using a bag of word classifier. Our analysis reveals that all of them suffer from severe distribution shifts. This challenges the validity of using such setups to measure LLM memorization and may undermine the benchmarking of recently proposed methods. Yet, all hope might not be lost. In the second part, we introduce important considerations to properly evaluate MIAs against LLMs and discuss potential ways forward: randomized test splits, injections of randomized (unique) sequences, randomized finetuning, and post-hoc control methods. While each option comes with its advantages and limitations, we believe they collectively provide solid grounds to guide the development of MIA methods and study LLM memorization. We conclude by proposing comprehensive, easy-to-use benchmarks for sequence- and document-level MIAs against LLMs.
- Abstract(参考訳): LLMがトレーニングデータを記憶しているかどうか、これが意味するところ、プライバシー侵害から著作権侵害の検出まで、この2年間で急速に研究領域が拡大している。近年では、LLMに対するメンバーシップ推論攻撃(MIA)を実行するための10以上の新しい手法が提案されている。固定された-しかしランダム化された-レコードやモデルに依存する従来のMIAとは対照的に、これらの手法は、主にポストホックで収集されたデータセットに基づいて評価されている。
MIAを評価するために使用されるメンバーと非メンバーのセットは、モデルのリリース後の情報的推測を用いて構築される。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
第一部では,LSMに対するMIAに関する文献を概観する。
多くの研究は、ポストホックセットアップで評価されたシーケンスレベルMIAに焦点を当てているが、本研究では、対象モデル、モチベーション、関心の単位が検討されていることを示す。
次に,本書から論文まで,文献中の6つのデータセットに存在する分布変化を,単語分類器の袋を用いて定量化する。
分析の結果,これらはいずれも急激な分布変化に悩まされていることが明らかとなった。
このことは、LCMの記憶量を測定するためにそのような設定を使用することの有効性に挑戦し、最近提案された手法のベンチマークを損なう可能性がある。
しかし、すべての希望は失われないかもしれない。
第2部では,LSMに対してMIAを適切に評価する上で重要な考慮事項を紹介する。ランダム化テスト分割,ランダム化(一意)シーケンスの注入,ランダム化微調整,ポストホック制御などである。
それぞれの選択肢には長所と短所が伴うが、MIA法の開発を指導し、LLMの記憶を研究するためのしっかりとした基盤を集合的に提供すると信じている。
LLMに対して,シーケンスレベルのMIAと文書レベルのMIAの総合的,使いやすいベンチマークを提案する。
関連論文リスト
- ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - LLM Dataset Inference: Did you train on my dataset? [42.97830562143777]
本研究では,大規模言語モデルの学習に使用されるデータセットを正確に識別する新しいデータセット推論手法を提案する。
提案手法は, 統計的に有意なp値0.1を持つパイルの異なる部分集合の列車と試験セットを, 偽陽性を伴わずに識別する。
論文 参考訳(メタデータ) (2024-06-10T16:34:43Z) - Do Membership Inference Attacks Work on Large Language Models? [145.90022632726883]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Mitigating Biases with Diverse Ensembles and Diffusion Models [99.6100669122048]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,制御信号の追加を必要とせず,一次ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。
PFAMI(Probabilistic Fluctuation Assessing Membership Inference Attack)を提案する。
PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができる。
論文 参考訳(メタデータ) (2023-08-23T14:00:58Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - MIAShield: Defending Membership Inference Attacks via Preemptive
Exclusion of Members [9.301268830193072]
メンバーシップ推論攻撃では、相手はモデルの予測を観察し、サンプルがモデルのトレーニングデータの一部であるかどうかを判断する。
そこで我々は,MIAShieldを提案する。MIAShieldは,メンバーの存在を隠蔽する代わりに,メンバーサンプルのプリエンプティブ排除に基づく新しいMIAディフェンスである。
我々は,MIAShieldが多岐にわたるMIAの会員推定を効果的に緩和し,最先端の防衛技術と比較してはるかに優れたプライバシー利用トレードオフを実現し,適応的敵に対する耐性を保っていることを示す。
論文 参考訳(メタデータ) (2022-03-02T07:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。