論文の概要: Sampling-based Pseudo-Likelihood for Membership Inference Attacks
- arxiv url: http://arxiv.org/abs/2404.11262v1
- Date: Wed, 17 Apr 2024 11:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:24:17.748674
- Title: Sampling-based Pseudo-Likelihood for Membership Inference Attacks
- Title(参考訳): サンプリングに基づく擬似推論によるメンバーシップ推論攻撃
- Authors: Masahiro Kaneko, Youmi Ma, Yuki Wata, Naoaki Okazaki,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、与えられたテキストがモデルのトレーニングデータに含まれるかどうかを決定する。
LLMによって生成されたテキストのみを用いてSPLを計算し,漏洩を検出するMIAのためのサンプリングベースPseudo-Likelihood(textbfSPL)手法を提案する。
- 参考スコア(独自算出の注目度): 36.62066767969338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained on large-scale web data, which makes it difficult to grasp the contribution of each text. This poses the risk of leaking inappropriate data such as benchmarks, personal information, and copyrighted texts in the training data. Membership Inference Attacks (MIA), which determine whether a given text is included in the model's training data, have been attracting attention. Previous studies of MIAs revealed that likelihood-based classification is effective for detecting leaks in LLMs. However, the existing methods cannot be applied to some proprietary models like ChatGPT or Claude 3 because the likelihood is unavailable to the user. In this study, we propose a Sampling-based Pseudo-Likelihood (\textbf{SPL}) method for MIA (\textbf{SaMIA}) that calculates SPL using only the text generated by an LLM to detect leaks. The SaMIA treats the target text as the reference text and multiple outputs from the LLM as text samples, calculates the degree of $n$-gram match as SPL, and determines the membership of the text in the training data. Even without likelihoods, SaMIA performed on par with existing likelihood-based methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模Webデータに基づいて訓練されており、各テキストのコントリビューションの把握が困難である。
これは、トレーニングデータにベンチマーク、個人情報、著作権のあるテキストなどの不適切なデータをリークするリスクを引き起こす。
モデルのトレーニングデータに与えられたテキストが含まれているかどうかを判断するメンバーシップ推論攻撃(MIA)が注目されている。
MIAsの以前の研究により、LLMの漏れを検出するために可能性に基づく分類が有効であることが判明した。
しかし、既存のメソッドはChatGPTやClaude 3のようないくつかのプロプライエタリなモデルには適用できない。
本研究では, LLM が生成したテキストのみを用いて SPL を計算し, 漏洩を検知するサンプルベース Pseudo-Likelihood (\textbf{SPL}) 手法を提案する。
SaMIAは、対象テキストを基準テキストとして扱い、LLMからの複数の出力をテキストサンプルとして扱い、SPLとn$-gramマッチの度合いを算出し、トレーニングデータ中のテキストのメンバシップを決定する。
SaMIAは、可能性のない場合でも、既存の可能性ベースの手法と同等に実行された。
関連論文リスト
- Online Detecting LLM-Generated Texts via Sequential Hypothesis Testing by Betting [14.70496845511859]
我々は,ソースが大言語モデル(LLM)なのか人間なのかを迅速かつ正確に判定するアルゴリズムを開発した。
我々は、既存のオフライン検出技術に基づいて、ベッティングによるシーケンシャル仮説テストの手法を用いる。
提案手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2024-10-29T17:55:14Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。