論文の概要: MoPe: Model Perturbation-based Privacy Attacks on Language Models
- arxiv url: http://arxiv.org/abs/2310.14369v1
- Date: Sun, 22 Oct 2023 17:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:10:14.194525
- Title: MoPe: Model Perturbation-based Privacy Attacks on Language Models
- Title(参考訳): mope: 言語モデルに対するモデル摂動ベースのプライバシー攻撃
- Authors: Marvin Li, Jason Wang, Jeffrey Wang, Seth Neel
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。
本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
- 参考スコア(独自算出の注目度): 4.4746931463927835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that Large Language Models (LLMs) can unintentionally
leak sensitive information present in their training data. In this paper, we
present Model Perturbations (MoPe), a new method to identify with high
confidence if a given text is in the training data of a pre-trained language
model, given white-box access to the models parameters. MoPe adds noise to the
model in parameter space and measures the drop in log-likelihood at a given
point $x$, a statistic we show approximates the trace of the Hessian matrix
with respect to model parameters. Across language models ranging from $70$M to
$12$B parameters, we show that MoPe is more effective than existing loss-based
attacks and recently proposed perturbation-based methods. We also examine the
role of training point order and model size in attack success, and empirically
demonstrate that MoPe accurately approximate the trace of the Hessian in
practice. Our results show that the loss of a point alone is insufficient to
determine extractability -- there are training points we can recover using our
method that have average loss. This casts some doubt on prior works that use
the loss of a point as evidence of memorization or unlearning.
- Abstract(参考訳): 最近の研究によると、Large Language Models (LLM) はトレーニングデータに存在する機密情報を意図せずに漏洩させることができる。
本稿では,事前学習された言語モデルのトレーニングデータに含まれるテキストが,モデルパラメータへのホワイトボックスアクセスを与えられた場合に,信頼度の高いモデル摂動(MoPe)を提案する。
mope はパラメータ空間のモデルにノイズを加え、与えられた点 $x$ における対数類似度の低下を測定する。
70ドルから12ドルまでの言語モデル全体で、MoPeは既存の損失ベースの攻撃よりも効果的であり、近年では摂動ベースの手法が提案されている。
また,攻撃成功におけるトレーニングポイントオーダーとモデルサイズの役割についても検討し,実際にヘッセンの痕跡を正確に近似した実証実験を行った。
以上の結果から,抽出可能性を決定するには点の喪失だけでは不十分であることが示唆された。
これは、記憶や未学習の証拠としてポイントの喪失を使用する先行作品に疑問を投げかける。
関連論文リスト
- Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Using Adversarial Attacks to Reveal the Statistical Bias in Machine
Reading Comprehension Models [4.769747792846005]
我々は,MDCモデルを攻撃し,これらのモデルにおける統計的バイアスを明らかにするための,単純かつ効果的な手法を実証する。
BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した好みを示すことが判明した。
しかし、人間読者はこれらの無関係な選択肢の影響をはっきりと受けていない。
論文 参考訳(メタデータ) (2021-05-24T07:35:56Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。
BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。
他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文 参考訳(メタデータ) (2020-10-19T14:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。