論文の概要: Differentially Private Language Models for Secure Data Sharing
- arxiv url: http://arxiv.org/abs/2210.13918v1
- Date: Tue, 25 Oct 2022 11:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:05:17.953277
- Title: Differentially Private Language Models for Secure Data Sharing
- Title(参考訳): セキュアデータ共有のための微分プライベート言語モデル
- Authors: Justus Mattern, Zhijing Jin, Benjamin Weggenmann, Bernhard Schoelkopf,
Mrinmaya Sachan
- Abstract要約: 本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
- 参考スコア(独自算出の注目度): 19.918137395199224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To protect the privacy of individuals whose data is being shared, it is of
high importance to develop methods allowing researchers and companies to
release textual data while providing formal privacy guarantees to its
originators. In the field of NLP, substantial efforts have been directed at
building mechanisms following the framework of local differential privacy,
thereby anonymizing individual text samples before releasing them. In practice,
these approaches are often dissatisfying in terms of the quality of their
output language due to the strong noise required for local differential
privacy. In this paper, we approach the problem at hand using global
differential privacy, particularly by training a generative language model in a
differentially private manner and consequently sampling data from it. Using
natural language prompts and a new prompt-mismatch loss, we are able to create
highly accurate and fluent textual datasets taking on specific desired
attributes such as sentiment or topic and resembling statistical properties of
the training data. We perform thorough experiments indicating that our
synthetic datasets do not leak information from our original data and are of
high language quality and highly suitable for training models for further
analysis on real-world data. Notably, we also demonstrate that training
classifiers on private synthetic data outperforms directly training classifiers
on real data with DP-SGD.
- Abstract(参考訳): データの共有を行う個人のプライバシを保護するためには,研究者や企業がテキストデータを公開し,起因者に正式なプライバシ保証を提供することが重要である。
nlpの分野では、ローカルディファレンシャルプライバシの枠組みに従い、個別のテキストサンプルを解放する前に匿名化するためのメカニズムを構築することにかなりの努力が払われている。
実際には、これらのアプローチは、局所的な差分プライバシーに必要な強いノイズのため、出力言語の品質に不満を持つことが多い。
本稿では,グローバル・ディファレンシャル・プライバシを用いて問題にアプローチする。特に,生成言語モデルを差分的にプライベートな方法で訓練し,その結果からデータを取り出す。
自然言語のプロンプトと新しいプロンプトミスマッチロスを用いることで、感情やトピックといった特定の望ましい属性を取り入れ、トレーニングデータの統計特性に類似した高度に正確で流動的なテキストデータセットを作成できる。
本研究は,人工データセットが原データから情報を漏らすことなく,言語品質が高く,実世界データ解析のためのトレーニングモデルに極めて適していることを示す実験を徹底的に実施する。
また, DP-SGDを用いて, 個人合成データの学習分類器が実データ上で直接学習し, 性能的に優れていることを示す。
関連論文リスト
- Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Collaborative Chinese Text Recognition with Personalized Federated
Learning [61.34060587461462]
中国語のテキスト認識では、ある組織が類似の組織から大量のデータを収集することがしばしば必要である。
アドレスや電話番号などのテキストデータに個人情報が自然に存在するため、異なる組織はプライベートデータを共有したくない。
中国語テキスト認識タスクにパーソナライズド・フェデレーション・ラーニング(pFL)を導入し,pFedCRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-09T16:51:00Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - Personalization Improves Privacy-Accuracy Tradeoffs in Federated
Optimization [57.98426940386627]
局所的な学習とプライベートな集中学習の協調は、総合的に有用であり、精度とプライバシのトレードオフを改善していることを示す。
合成および実世界のデータセットに関する実験により理論的結果について述べる。
論文 参考訳(メタデータ) (2022-02-10T20:44:44Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。