論文の概要: SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)
- arxiv url: http://arxiv.org/abs/2406.17975v3
- Date: Fri, 07 Mar 2025 16:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:51.552067
- Title: SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)
- Title(参考訳): SoK:LSMの会員推論攻撃は、どこにもない(そしてそれをどう修正するか)
- Authors: Matthieu Meeus, Igor Shilov, Shubham Jain, Manuel Faysse, Marek Rei, Yves-Alexandre de Montjoye,
- Abstract要約: LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
- 参考スコア(独自算出の注目度): 16.673210422615348
- License:
- Abstract: Whether LLMs memorize their training data and what this means, from measuring privacy leakage to detecting copyright violations, has become a rapidly growing area of research. In the last few months, more than 10 new methods have been proposed to perform Membership Inference Attacks (MIAs) against LLMs. Contrary to traditional MIAs which rely on fixed-but randomized-records or models, these methods are mostly trained and tested on datasets collected post-hoc. Sets of members and non-members, used to evaluate the MIA, are constructed using informed guesses after the release of a model. This lack of randomization raises concerns of a distribution shift between members and non-members. In this work, we first extensively review the literature on MIAs against LLMs and show that, while most work focuses on sequence-level MIAs evaluated in post-hoc setups, a range of target models, motivations and units of interest are considered. We then quantify distribution shifts present in 6 datasets used in the literature using a model-less bag of word classifier and show that all datasets constructed post-hoc suffer from strong distribution shifts. These shifts invalidate the claims of LLMs memorizing strongly in real-world scenarios and, potentially, also the methodological contributions of the recent papers based on these datasets. Yet, all hope might not be lost. We introduce important considerations to properly evaluate MIAs against LLMs and discuss, in turn, potential ways forwards: randomized test splits, injections of randomized (unique) sequences, randomized fine-tuning, and several post-hoc control methods. While each option comes with its advantages and limitations, we believe they collectively provide solid grounds to guide MIA development and study LLM memorization. We conclude with an overview of recommended approaches to benchmark sequence-level and document-level MIAs against LLMs.
- Abstract(参考訳): LLMがトレーニングデータを記憶しているか、それが意味するところは、プライバシー漏洩の測定から著作権侵害の検出まで、急速に研究の領域が拡大しているということだ。
過去数ヶ月の間に、LSMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい方法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
MIAを評価するために使用されるメンバーと非メンバーのセットは、モデルのリリース後の情報的推測を用いて構築される。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
本研究は, LLMに対するMIAに関する文献を概観的にレビューし, ポストホックな設定で評価されたシーケンスレベルMIAに焦点を合わせながら, 対象モデル, モチベーション, 関心の単位について検討した。
次に、単語分類器のモデルレスバッグを用いて、文献で使用されている6つのデータセットに存在する分布シフトを定量化し、ポストホックで構築された全てのデータセットが強い分布シフトに悩まされていることを示す。
これらのシフトは、LLMが現実世界のシナリオで強く記憶しているという主張を無効にし、潜在的には、これらのデータセットに基づいた最近の論文の方法論的貢献も無効にする。
しかし、すべての希望は失われないかもしれない。
ランダム化テストスプリット、ランダム化(一意)シーケンスのインジェクション、ランダム化ファインタニング、いくつかのポストホック制御手法について検討し、LLMに対してMIAを適切に評価するための重要な考察を紹介する。
それぞれの選択肢には長所と短所が伴うが、MIA開発をガイドし、LSMの記憶を研究するためのしっかりとした基盤を集合的に提供すると信じている。
我々は、LLMに対するシーケンスレベルおよび文書レベルのMIAをベンチマークするための推奨アプローチの概要をまとめて締めくくる。
関連論文リスト
- Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Scaling Up Membership Inference: When and How Attacks Succeed on Large Language Models [37.420266437306374]
メンバーシップ推論アタック(MIA)は、モデルのトレーニングセットで与えられたデータサンプルのメンバシップを検証する。
最近の研究は、現在のMIA法は大規模言語モデル(LLM)では機能しないと結論付けている。
論文 参考訳(メタデータ) (2024-10-31T18:59:46Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector [32.15773300068426]
既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
論文 参考訳(メタデータ) (2024-08-16T11:09:56Z) - LLM Dataset Inference: Did you train on my dataset? [42.97830562143777]
本研究では,大規模言語モデルの学習に使用されるデータセットを正確に識別する新しいデータセット推論手法を提案する。
提案手法は, 統計的に有意なp値0.1を持つパイルの異なる部分集合の列車と試験セットを, 偽陽性を伴わずに識別する。
論文 参考訳(メタデータ) (2024-06-10T16:34:43Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。