論文の概要: SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)
- arxiv url: http://arxiv.org/abs/2406.17975v2
- Date: Mon, 07 Oct 2024 17:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:16.817174
- Title: SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)
- Title(参考訳): SoK:LSMの会員推論攻撃は、どこにもない(そしてそれをどう修正するか)
- Authors: Matthieu Meeus, Igor Shilov, Shubham Jain, Manuel Faysse, Marek Rei, Yves-Alexandre de Montjoye,
- Abstract要約: LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定された-しかしランダム化された-レコードやモデルに依存する従来のMIAとは対照的に、これらの手法は主にポストホックで収集されたデータセットに基づいて評価される。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
- 参考スコア(独自算出の注目度): 16.673210422615348
- License:
- Abstract: Whether LLMs memorize their training data and what this means, from privacy leakage to detecting copyright violations -- has become a rapidly growing area of research over the last two years. In recent months, more than 10 new methods have been proposed to perform Membership Inference Attacks (MIAs) against LLMs. Contrary to traditional MIAs which rely on fixed -- but randomized -- records or models, these methods are mostly evaluated on datasets collected post-hoc. Sets of members and non-members, used to evaluate the MIA, are constructed using informed guesses after the release of a model. This lack of randomization raises concerns of a distribution shift between members and non-members. In the first part, we review the literature on MIAs against LLMs. While most work focuses on sequence-level MIAs evaluated in post-hoc setups, we show that a range of target models, motivations and units of interest have been considered in the literature. We then quantify distribution shifts present in the 6 datasets used in the literature, ranging from books to papers, using a bag of word classifier. Our analysis reveals that all of them suffer from severe distribution shifts. This challenges the validity of using such setups to measure LLM memorization and may undermine the benchmarking of recently proposed methods. Yet, all hope might not be lost. In the second part, we introduce important considerations to properly evaluate MIAs against LLMs and discuss potential ways forward: randomized test splits, injections of randomized (unique) sequences, randomized finetuning, and post-hoc control methods. While each option comes with its advantages and limitations, we believe they collectively provide solid grounds to guide the development of MIA methods and study LLM memorization. We conclude by proposing comprehensive, easy-to-use benchmarks for sequence- and document-level MIAs against LLMs.
- Abstract(参考訳): LLMがトレーニングデータを記憶しているかどうか、これが意味するところ、プライバシー侵害から著作権侵害の検出まで、この2年間で急速に研究領域が拡大している。近年では、LLMに対するメンバーシップ推論攻撃(MIA)を実行するための10以上の新しい手法が提案されている。固定された-しかしランダム化された-レコードやモデルに依存する従来のMIAとは対照的に、これらの手法は、主にポストホックで収集されたデータセットに基づいて評価されている。
MIAを評価するために使用されるメンバーと非メンバーのセットは、モデルのリリース後の情報的推測を用いて構築される。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
第一部では,LSMに対するMIAに関する文献を概観する。
多くの研究は、ポストホックセットアップで評価されたシーケンスレベルMIAに焦点を当てているが、本研究では、対象モデル、モチベーション、関心の単位が検討されていることを示す。
次に,本書から論文まで,文献中の6つのデータセットに存在する分布変化を,単語分類器の袋を用いて定量化する。
分析の結果,これらはいずれも急激な分布変化に悩まされていることが明らかとなった。
このことは、LCMの記憶量を測定するためにそのような設定を使用することの有効性に挑戦し、最近提案された手法のベンチマークを損なう可能性がある。
しかし、すべての希望は失われないかもしれない。
第2部では,LSMに対してMIAを適切に評価する上で重要な考慮事項を紹介する。ランダム化テスト分割,ランダム化(一意)シーケンスの注入,ランダム化微調整,ポストホック制御などである。
それぞれの選択肢には長所と短所が伴うが、MIA法の開発を指導し、LLMの記憶を研究するためのしっかりとした基盤を集合的に提供すると信じている。
LLMに対して,シーケンスレベルのMIAと文書レベルのMIAの総合的,使いやすいベンチマークを提案する。
関連論文リスト
- Scaling Up Membership Inference: When and How Attacks Succeed on Large Language Models [37.420266437306374]
メンバーシップ推論アタック(MIA)は、モデルのトレーニングセットで与えられたデータサンプルのメンバシップを検証する。
最近の研究は、現在のMIA法は大規模言語モデル(LLM)では機能しないと結論付けている。
論文 参考訳(メタデータ) (2024-10-31T18:59:46Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector [32.15773300068426]
既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
論文 参考訳(メタデータ) (2024-08-16T11:09:56Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。