論文の概要: Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe
- arxiv url: http://arxiv.org/abs/2210.14348v1
- Date: Tue, 25 Oct 2022 21:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:17:10.203463
- Title: Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe
- Title(参考訳): ディファレンシャルプライバシを用いた合成テキスト生成:単純かつ実用的なレシピ
- Authors: Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen,
Huan Sun, David Levitan and Robert Sim
- Abstract要約: 既存の法律は個人から収集された個人データの任意の処理を禁止している。
差分プライバシー(DP)のような正式なプライバシー保証付きで、そのようなデータの合成バージョンを生成することは、プライバシー問題に対処するための解決策であると考えられている。
生成言語モデルをDPで微調整することで、プライバシーの懸念を緩和しながら有用な合成テキストを生成することができる。
- 参考スコア(独自算出の注目度): 33.049021555866396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy concerns have attracted increasing attention in data-driven products
and services. Existing legislation forbids arbitrary processing of personal
data collected from individuals. Generating synthetic versions of such data
with a formal privacy guarantee such as differential privacy (DP) is considered
to be a solution to address privacy concerns. In this direction, we show a
simple, practical, and effective recipe in the text domain: simply fine-tuning
a generative language model with DP allows us to generate useful synthetic text
while mitigating privacy concerns. Through extensive empirical analyses, we
demonstrate that our method produces synthetic data that is competitive in
terms of utility with its non-private counterpart and meanwhile provides strong
protection against potential privacy leakages.
- Abstract(参考訳): プライバシに関する懸念は、データ駆動製品やサービスで注目を集めています。
既存の法律は個人から収集された個人データの任意の処理を禁じている。
ディファレンシャルプライバシ(dp)などの形式的プライバシ保証を備えたデータ合成バージョンの生成は、プライバシの懸念に対処するソリューションであると考えられている。
この方向では、テキスト領域において、単純で実用的で効果的なレシピを示し、DPで生成言語モデルを微調整するだけで、プライバシーの懸念を緩和しながら有用な合成テキストを生成することができる。
広範な実証分析を通じて,提案手法は,非プライベートなデータと実用面で競合する合成データを生成すると同時に,潜在的なプライバシー漏洩に対する強い保護を提供する。
関連論文リスト
- On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction
Attacks against "Truly Anonymous Synthetic Data'' [15.0393231456773]
私たちはこの分野の有力企業が提供するプライバシー指標をレビューし、実証的な評価を通じて、プライバシーを推論する上でいくつかの重大な欠陥を指摘しました。
我々は,低密度の列車記録(または降車率)の少なくとも78%をブラックボックスで回復し,単一の生成モデルとプライバシメトリクスにのみアクセスする再構成攻撃ReconSynを提案する。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Semantics-Preserved Distortion for Personal Privacy Protection [48.69930912510414]
クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。
フェデレートラーニング(Federated Learning)では、クライアントデバイスの生の情報から中心モデルをブロックする多くの方法が提案されている。
本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - PEARL: Data Synthesis via Private Embeddings and Adversarial
Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。
当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。
提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-08T18:00:01Z) - Generating Higher-Fidelity Synthetic Datasets with Privacy Guarantees [34.01962235805095]
データアノテーションやインスペクションなど,一般的な機械学習開発タスクにおけるユーザのプライバシ向上の課題を考察する。
我々はベイズ微分プライバシーを、より優れたプライバシー利用トレードオフを提供しながら厳密な理論的保証を達成する手段として採用することを提案する。
論文 参考訳(メタデータ) (2020-03-02T16:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。