論文の概要: Detecting Pretraining Data from Large Language Models
- arxiv url: http://arxiv.org/abs/2310.16789v3
- Date: Sat, 9 Mar 2024 22:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:39:41.309880
- Title: Detecting Pretraining Data from Large Language Models
- Title(参考訳): 大規模言語モデルからの事前学習データの検出
- Authors: Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu,
Terra Blevins, Danqi Chen, Luke Zettlemoyer
- Abstract要約: 事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
- 参考スコア(独自算出の注目度): 90.12037980837738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) are widely deployed, the data used to
train them is rarely disclosed. Given the incredible scale of this data, up to
trillions of tokens, it is all but certain that it includes potentially
problematic text such as copyrighted materials, personally identifiable
information, and test data for widely reported reference benchmarks. However,
we currently have no way to know which data of these types is included or in
what proportions. In this paper, we study the pretraining data detection
problem: given a piece of text and black-box access to an LLM without knowing
the pretraining data, can we determine if the model was trained on the provided
text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that
uses data created before and after model training to support gold truth
detection. We also introduce a new detection method Min-K% Prob based on a
simple hypothesis: an unseen example is likely to contain a few outlier words
with low probabilities under the LLM, while a seen example is less likely to
have words with such low probabilities. Min-K% Prob can be applied without any
knowledge about the pretraining corpus or any additional training, departing
from previous detection methods that require training a reference model on data
that is similar to the pretraining data. Moreover, our experiments demonstrate
that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous
methods. We apply Min-K% Prob to three real-world scenarios, copyrighted book
detection, contaminated downstream example detection and privacy auditing of
machine unlearning, and find it a consistently effective solution.
- Abstract(参考訳): 大規模言語モデル(LLM)は広くデプロイされているが、それらのトレーニングに使用されるデータはほとんど公開されていない。
このデータの驚くべき規模、数兆のトークンを考えると、著作権のある資料、個人を特定する情報、広く報告された基準ベンチマークのためのテストデータなど、潜在的に問題のあるテキストを含むことはほぼ確実である。
しかし、現在、これらの型のどのデータがどのデータを含んでいるか、どの比率で含まれているかを知る方法がありません。
本稿では,事前学習データ検出の問題について検討する。事前学習データを知ることなく,テキスト片とブラックボックスアクセスをLLMに与えることで,提案したテキストでモデルがトレーニングされたかどうかを判断できる。
本研究では,モデル学習前後に作成されたデータを用いてゴールド真理検出を支援する動的ベンチマークWIKIMIAを提案する。
また, 単純な仮説に基づく新たな検出手法Min-K% Probを導入する: 未知の例は, LLMの下では低い確率でいくつかの不規則な単語を含む傾向があり, また、そのような確率で低い単語を持つ場合が少なくなる。
min-k% probは、事前トレーニングコーパスや追加のトレーニングに関する知識がなくても適用でき、事前トレーニングデータに類似したデータに対する参照モデルのトレーニングを必要とする以前の検出方法から外れる。
さらに,Min-K% ProbがWIKIMIAを7.4%向上させることを示した。
我々はMin-K% Probを3つの実世界のシナリオに適用し、著作権付き本の検出、下流で汚染されたサンプルの検出と機械学習のプライバシー監査を行い、一貫した効果的な解決策を見出した。
関連論文リスト
- MoPe: Model Perturbation-based Privacy Attacks on Language Models [4.4746931463927835]
大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。
本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
論文 参考訳(メタデータ) (2023-10-22T17:33:19Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training [19.299285312415734]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - AB/BA analysis: A framework for estimating keyword spotting recall
improvement while maintaining audio privacy [0.0]
KWSはキーワードが存在する場合にのみデータを集めるように設計されており、偽陰性を含む可能性のあるハードサンプルの入手を制限している。
AB/BA解析と呼ばれる評価手法を提案する。
AB/BA分析は, 相対的偽陽性率のトレードオフに伴うリコール改善の測定に成功していることを示す。
論文 参考訳(メタデータ) (2022-04-18T13:52:22Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。