論文の概要: MoPe: Model Perturbation-based Privacy Attacks on Language Models
- arxiv url: http://arxiv.org/abs/2310.14369v1
- Date: Sun, 22 Oct 2023 17:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:10:14.194525
- Title: MoPe: Model Perturbation-based Privacy Attacks on Language Models
- Title(参考訳): mope: 言語モデルに対するモデル摂動ベースのプライバシー攻撃
- Authors: Marvin Li, Jason Wang, Jeffrey Wang, Seth Neel
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。
本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
- 参考スコア(独自算出の注目度): 4.4746931463927835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that Large Language Models (LLMs) can unintentionally
leak sensitive information present in their training data. In this paper, we
present Model Perturbations (MoPe), a new method to identify with high
confidence if a given text is in the training data of a pre-trained language
model, given white-box access to the models parameters. MoPe adds noise to the
model in parameter space and measures the drop in log-likelihood at a given
point $x$, a statistic we show approximates the trace of the Hessian matrix
with respect to model parameters. Across language models ranging from $70$M to
$12$B parameters, we show that MoPe is more effective than existing loss-based
attacks and recently proposed perturbation-based methods. We also examine the
role of training point order and model size in attack success, and empirically
demonstrate that MoPe accurately approximate the trace of the Hessian in
practice. Our results show that the loss of a point alone is insufficient to
determine extractability -- there are training points we can recover using our
method that have average loss. This casts some doubt on prior works that use
the loss of a point as evidence of memorization or unlearning.
- Abstract(参考訳): 最近の研究によると、Large Language Models (LLM) はトレーニングデータに存在する機密情報を意図せずに漏洩させることができる。
本稿では,事前学習された言語モデルのトレーニングデータに含まれるテキストが,モデルパラメータへのホワイトボックスアクセスを与えられた場合に,信頼度の高いモデル摂動(MoPe)を提案する。
mope はパラメータ空間のモデルにノイズを加え、与えられた点 $x$ における対数類似度の低下を測定する。
70ドルから12ドルまでの言語モデル全体で、MoPeは既存の損失ベースの攻撃よりも効果的であり、近年では摂動ベースの手法が提案されている。
また,攻撃成功におけるトレーニングポイントオーダーとモデルサイズの役割についても検討し,実際にヘッセンの痕跡を正確に近似した実証実験を行った。
以上の結果から,抽出可能性を決定するには点の喪失だけでは不十分であることが示唆された。
これは、記憶や未学習の証拠としてポイントの喪失を使用する先行作品に疑問を投げかける。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [27.962361828354716]
我々は,Large Language Models (LLMs) のための新しいアンラーニング手法を提案する。
このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。
実験の結果、文脈内アンラーニングは、モデルパラメータへのアクセスを必要とする他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。
BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。
他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文 参考訳(メタデータ) (2020-10-19T14:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。