論文の概要: Extracting Training Data from Large Language Models
- arxiv url: http://arxiv.org/abs/2012.07805v1
- Date: Mon, 14 Dec 2020 18:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:39:05.951615
- Title: Extracting Training Data from Large Language Models
- Title(参考訳): 大規模言語モデルから学習データを抽出する
- Authors: Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski,
Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar
Erlingsson, Alina Oprea, Colin Raffel
- Abstract要約: 本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
- 参考スコア(独自算出の注目度): 78.3839333127544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has become common to publish large (billion parameter) language models
that have been trained on private datasets. This paper demonstrates that in
such settings, an adversary can perform a training data extraction attack to
recover individual training examples by querying the language model.
We demonstrate our attack on GPT-2, a language model trained on scrapes of
the public Internet, and are able to extract hundreds of verbatim text
sequences from the model's training data. These extracted examples include
(public) personally identifiable information (names, phone numbers, and email
addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible
even though each of the above sequences are included in just one document in
the training data.
We comprehensively evaluate our extraction attack to understand the factors
that contribute to its success. For example, we find that larger models are
more vulnerable than smaller models. We conclude by drawing lessons and
discussing possible safeguards for training large language models.
- Abstract(参考訳): プライベートデータセットでトレーニングされた大規模な(ビリオンパラメータ)言語モデルを公開することが一般的になった。
本稿では, 言語モデルに問い合わせることで, 相手が学習データ抽出攻撃を行い, 個別の学習例を復元できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
抽出された例としては、個人識別可能な情報(名前、電話番号、メールアドレス)、IRC会話、コード、128ビットのUIDなどがある。
トレーニングデータには,各シーケンスが1つのドキュメントに含まれている場合でも,攻撃が可能である。
我々は,その成功に寄与する要因を理解するために,抽出攻撃を包括的に評価する。
例えば、より大規模なモデルはより小さなモデルよりも脆弱である。
講演では,大規模言語モデルの学習における教訓と安全性について論じる。
関連論文リスト
- Special Characters Attack: Toward Scalable Training Data Extraction From Large Language Models [36.58320580210008]
特定の特殊文字またはそれらと英語の文字の組み合わせがより強いメモリトリガーであり、より深刻なデータ漏洩を引き起こすことを示す。
トレーニングデータ漏洩を誘発する簡易かつ効果的な特殊文字攻撃(SCA)を提案する。
論文 参考訳(メタデータ) (2024-05-09T02:35:32Z) - Traces of Memorisation in Large Language Models for Code [16.125924759649106]
コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。
記憶の速度を、自然言語で訓練された大きな言語モデルと比較する。
コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。
論文 参考訳(メタデータ) (2023-12-18T19:12:58Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。
最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文 参考訳(メタデータ) (2022-05-17T17:38:37Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。