Fugu-MT 論文翻訳(概要): Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models

論文の概要: Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models

arxiv url: http://arxiv.org/abs/2502.18943v1
Date: Wed, 26 Feb 2025 08:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.434745
Title: Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models
Title（参考訳）: 事前訓練された大規模言語モデルに対するラベル専用メンバーシップ推論攻撃に向けて
Authors: Yu He, Boheng Li, Liu Liu, Zhongjie Ba, Wei Dong, Yiming Li, Zhan Qin, Kui Ren, Chun Chen,
Abstract要約: メンバーシップ推論攻撃(MIA)は、データサンプルがモデルのトレーニングセットに属しているかどうかを予測することを目的としている。 textbfPETAL: textbfPEr-textbfToken semtextbfAntic simitextbfLLに基づくラベルのみのメンバシップ推論攻撃を提案する。
参考スコア（独自算出の注目度）: 34.39913818362284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Membership Inference Attacks (MIAs) aim to predict whether a data sample belongs to the model's training set or not. Although prior research has extensively explored MIAs in Large Language Models (LLMs), they typically require accessing to complete output logits (\ie, \textit{logits-based attacks}), which are usually not available in practice. In this paper, we study the vulnerability of pre-trained LLMs to MIAs in the \textit{label-only setting}, where the adversary can only access generated tokens (text). We first reveal that existing label-only MIAs have minor effects in attacking pre-trained LLMs, although they are highly effective in inferring fine-tuning datasets used for personalized LLMs. We find that their failure stems from two main reasons, including better generalization and overly coarse perturbation. Specifically, due to the extensive pre-training corpora and exposing each sample only a few times, LLMs exhibit minimal robustness differences between members and non-members. This makes token-level perturbations too coarse to capture such differences. To alleviate these problems, we propose \textbf{PETAL}: a label-only membership inference attack based on \textbf{PE}r-\textbf{T}oken sem\textbf{A}ntic simi\textbf{L}arity. Specifically, PETAL leverages token-level semantic similarity to approximate output probabilities and subsequently calculate the perplexity. It finally exposes membership based on the common assumption that members are `better' memorized and have smaller perplexity. We conduct extensive experiments on the WikiMIA benchmark and the more challenging MIMIR benchmark. Empirically, our PETAL performs better than the extensions of existing label-only attacks against personalized LLMs and even on par with other advanced logit-based attacks across all metrics on five prevalent open-source LLMs.
Abstract（参考訳）: メンバーシップ推論攻撃(MIA)は、データサンプルがモデルのトレーニングセットに属しているかどうかを予測することを目的としている。以前の研究では、Large Language Models (LLMs) においてMIAを広範囲に調査してきたが、通常は実際に利用できない完全な出力ロジット(\ie, \textit{logits-based attack})にアクセスする必要がある。本稿では,生成トークン(テキスト)にのみアクセス可能な <textit{label-only set} において,事前学習した LLM の MIA に対する脆弱性について検討する。まず,既存のラベルのみのMIAは,パーソナライズされたLLMに使用する微調整データセットを推定する上で非常に有効であるが,事前訓練されたLLMの攻撃には小さな効果があることを明らかにした。それらの失敗は、より一般化と過度に粗い摂動を含む2つの主な理由から生じる。具体的には、広範囲な事前学習コーパスと各サンプルの露出がわずか数回であったため、LLMはメンバーと非メンバーの間で最小限の堅牢性差を示す。これによりトークンレベルの摂動は、そのような違いを捉えるには大きすぎる。これらの問題を緩和するために、ラベルのみのメンバシップ推論攻撃である \textbf{PETAL} を提案し、これは \textbf{PE}r-\textbf{T}oken sem\textbf{A}ntic simi\textbf{L}arity に基づいている。具体的には、PETALはトークンレベルのセマンティックな類似性を近似出力確率に利用し、その後にパープレキシティを計算する。メンバが暗記され、より複雑度が低いという一般的な仮定に基づいて、最終的にメンバシップを公開する。我々はWikiMIAベンチマークとより挑戦的なMIMIRベンチマークで広範な実験を行う。経験的に、PETALは、パーソナライズされたLDMに対する既存のラベルのみの攻撃の拡張よりも、さらに優れたパフォーマンスを実現しています。

関連論文リスト

Tag&Tab: Pretraining Data Detection in Large Language Models Using Keyword-Based Membership Inference Attack [26.083244046813512]
大規模言語モデル(LLM)はデジタルタスク支援ツールとして欠かせないものとなっている。 LLMにおける事前学習データの検出に関する最近の研究は、主に文レベルまたは段落レベルのメンバシップ推論攻撃に焦点を当てている。 LLMプレトレーニングの一部として使用されているデータを検出する新しい手法であるTag&Tabを提案する。
論文参考訳（メタデータ） (2025-01-14T21:55:37Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。 EM-MIAはWikiMIAで最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-10T03:31:16Z)
SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文参考訳（メタデータ） (2024-06-25T23:12:07Z)
ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。 ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-06-23T00:23:13Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (2024-02-12T17:52:05Z)
Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文参考訳（メタデータ） (2023-11-10T13:55:05Z)
SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文参考訳（メタデータ） (2023-10-13T07:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。