論文の概要: Flocks of Stochastic Parrots: Differentially Private Prompt Learning for
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15594v1
- Date: Wed, 24 May 2023 22:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:21:46.398895
- Title: Flocks of Stochastic Parrots: Differentially Private Prompt Learning for
Large Language Models
- Title(参考訳): 確率的オウムの群れ:大規模言語モデルのための微分プライベート・プロンプト学習
- Authors: Haonan Duan, Adam Dziedzic, Nicolas Papernot, Franziska Boenisch
- Abstract要約: 我々は、大規模言語モデルを促進するために使用されるデータに対して、単純だが非常に効果的なメンバーシップ推論攻撃をインスタンス化する。
当社のプロンプトベースのアプローチは,既存の商用APIで容易にデプロイ可能であることを示す。
- 参考スコア(独自算出の注目度): 26.969641494649267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are excellent in-context learners. However, the
sensitivity of data contained in prompts raises privacy concerns. Our work
first shows that these concerns are valid: we instantiate a simple but highly
effective membership inference attack against the data used to prompt LLMs. To
address this vulnerability, one could forego prompting and resort to
fine-tuning LLMs with known algorithms for private gradient descent. However,
this comes at the expense of the practicality and efficiency offered by
prompting. Therefore, we propose to privately learn to prompt. We first show
that soft prompts can be obtained privately through gradient descent on
downstream data. However, this is not the case for discrete prompts. Thus, we
orchestrate a noisy vote among an ensemble of LLMs presented with different
prompts, i.e., a flock of stochastic parrots. The vote privately transfers the
flock's knowledge into a single public prompt. We show that LLMs prompted with
our private algorithms closely match the non-private baselines. For example,
using GPT3 as the base model, we achieve a downstream accuracy of 92.7% on the
sst2 dataset with ($\epsilon=0.147, \delta=10^{-6}$)-differential privacy vs.
95.2% for the non-private baseline. Through our experiments, we also show that
our prompt-based approach is easily deployed with existing commercial APIs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈内での学習に優れる。
しかし、プロンプトに含まれるデータの感度はプライバシーの懸念を引き起こす。
我々は、llmを促すために使用されるデータに対して、単純だが非常に効果的なメンバーシップ推論攻撃をインスタンス化する。
この脆弱性に対処するために、プライベート勾配降下のための既知のアルゴリズムによる微調整 LLM の推進と活用を先導することができる。
しかし、これはプロンプトによって提供される実用性と効率を犠牲にしている。
そこで我々は,私的にプロンプトを学ぶことを提案する。
まず,下流データへの勾配降下により,ソフトプロンプトをプライベートに得ることを示す。
しかし、これは離散的なプロンプトには当てはまらない。
そこで我々は,異なるプロンプト,すなわち確率的オウムの群れを提示するllmのアンサンブルの中で,ノイズの多い投票を編成する。
この投票は私的に群れの知識を1つの公的なプロンプトに移す。
LLMが私たちのプライベートアルゴリズムによって引き起こされたことは、プライベートでないベースラインと密接に一致している。
例えば、GPT3をベースモデルとして使用すると、sst2データセットのダウンストリーム精度は92.7%に達し(\epsilon=0.147, \delta=10^{-6}$)、非プライベートベースラインでは95.2%である。
実験を通じて、我々のプロンプトベースのアプローチは、既存の商用APIで容易にデプロイできることを示す。
関連論文リスト
- Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good
movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。
特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文 参考訳(メタデータ) (2022-12-20T18:47:13Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - In Differential Privacy, There is Truth: On Vote Leakage in Ensemble
Private Learning [42.34839009553982]
本研究では,PATE予測を行うノイズを用いることで,機密情報の漏洩の新たな形態を実現できることを示す。
我々の敵は、この事実を利用して、基礎となる教師が提出した投票の高忠実度ヒストグラムを抽出する。
これは、差別的なプライバシーをパナセアとして扱うのではなく、プライバシーを公平に考慮する将来の作業を促進することを願っている。
論文 参考訳(メタデータ) (2022-09-22T02:07:21Z) - Smooth Anonymity for Sparse Binary Matrices [84.60886611165573]
この作業では、スパースデータセット全体を第三者とプライベートに操作し、共有することを目的としています。
実際、差分プライバシーは、プライバシの金の標準として現れていますが、スパースデータセットの共有に関しては、主要な結果の1つとして、偏微分プライベートメカニズムが極めて弱いプライバシ保証を持つ運命にあることを証明しています。
我々は、スムーズな$k$匿名性を示し、スムーズな$k$匿名性を提供する単純なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Per-Instance Privacy Accounting for Differentially Private Stochastic
Gradient Descent [95.723310923685]
DP-SGDの実行時の個々の事例に対するインスタンスごとのプライバシ保証を効率よく計算するアルゴリズムを提案する。
ほとんどの例は、最悪の場合よりも強力なプライバシー保証を享受している。
これは、モデルユーティリティの観点で守られていないグループは、プライバシーの損失という点で同時に守られていないことを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Privacy Amplification via Random Check-Ins [38.72327434015975]
Differentially Private Gradient Descent (DP-SGD) は、多くのアプリケーションにおいて、機密データを学習するための基本的な構成要素となっている。
本稿では,DP-SGD のような反復的手法を,多くのデバイス(クライアント)に分散したフェデレーションラーニング(FL)の設定において実施することに焦点を当てる。
当社の主なコントリビューションは,各クライアントがローカルかつ独立に行うランダムな参加決定にのみ依存する,Emphrandom Check-in分散プロトコルです。
論文 参考訳(メタデータ) (2020-07-13T18:14:09Z) - Differentially private cross-silo federated learning [16.38610531397378]
厳密なプライバシは、分散機械学習において最重要事項である。
本稿では,いわゆるクロスサイロ・フェデレーション・ラーニング・セッティングにおいて,加算準同型セキュア和プロトコルと差分プライバシーを併用する。
提案手法により,非分散設定に匹敵する予測精度が得られることを示す。
論文 参考訳(メタデータ) (2020-07-10T18:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。