論文の概要: Submix: Practical Private Prediction for Large-Scale Language Models
- arxiv url: http://arxiv.org/abs/2201.00971v1
- Date: Tue, 4 Jan 2022 04:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:31:42.224033
- Title: Submix: Practical Private Prediction for Large-Scale Language Models
- Title(参考訳): Submix: 大規模言語モデルの実用的なプライベート予測
- Authors: Antonio Ginart, Laurens van der Maaten, James Zou, Chuan Guo
- Abstract要約: 最近のデータ抽出攻撃は、言語モデルがいくつかのトレーニングサンプルを冗長に記憶できることを明らかにしている。
SubMixは、言語モデルによるプライバシー侵害を防止するために設計された、プライベートな次世代予測のためのプロトコルである。
SubMixは、何万もの次世代予測を公開してもプライバシを維持する最初のプロトコルである。
- 参考スコア(独自算出の注目度): 32.36729880798025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent data-extraction attacks have exposed that language models can memorize
some training samples verbatim. This is a vulnerability that can compromise the
privacy of the model's training data. In this work, we introduce SubMix: a
practical protocol for private next-token prediction designed to prevent
privacy violations by language models that were fine-tuned on a private corpus
after pre-training on a public corpus. We show that SubMix limits the leakage
of information that is unique to any individual user in the private corpus via
a relaxation of group differentially private prediction. Importantly, SubMix
admits a tight, data-dependent privacy accounting mechanism, which allows it to
thwart existing data-extraction attacks while maintaining the utility of the
language model. SubMix is the first protocol that maintains privacy even when
publicly releasing tens of thousands of next-token predictions made by large
transformer-based models such as GPT-2.
- Abstract(参考訳): 最近のデータ抽出攻撃により、言語モデルがいくつかのトレーニングサンプルを記憶できることが明らかになった。
これはモデルのトレーニングデータのプライバシを侵害する可能性のある脆弱性である。
本研究では,公開コーパスの事前トレーニング後,プライベートコーパスに微調整された言語モデルによるプライバシー侵害を防止するために設計された,プライベート次世代予測のための実用的なプロトコルであるSubMixを紹介する。
サブミックスは,グループ差動プライベート予測の緩和を通じて,個人コーパス内の個人ユーザ特有の情報の漏洩を制限していることを示す。
重要なことに、submixは厳密なデータ依存のプライバシー会計機構を認めており、言語モデルの有用性を維持しながら、既存のデータ抽出攻撃を阻止できる。
SubMixは、GPT-2のような大きなトランスフォーマーベースのモデルによって何万もの次世代の予測を公開しても、プライバシを維持する最初のプロトコルである。
関連論文リスト
- Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - Private Prediction Sets [72.75711776601973]
機械学習システムは、個人のプライバシーの確実な定量化と保護を必要とする。
これら2つのデシラタを共同で扱う枠組みを提案する。
本手法を大規模コンピュータビジョンデータセット上で評価する。
論文 参考訳(メタデータ) (2021-02-11T18:59:11Z) - KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records [0.0]
我々は,MIMIC-IIIコーパスで事前学習したBERTモデルを用いて,言語モデルのプライバシリスクを実証的に評価した。
BERTモデルは、各攻撃のTop-100精度が偶然に予想よりはるかに低いため、おそらく低リスクであった。
我々は、KART(Knowledge, Anonymization, Resource, and Target)フレームワークという、普遍的な新しいフレームワークで、さまざまなプライバシー漏洩シナリオを定式化した。
論文 参考訳(メタデータ) (2020-12-31T19:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。