論文の概要: Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe
- arxiv url: http://arxiv.org/abs/2210.14348v1
- Date: Tue, 25 Oct 2022 21:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:17:10.203463
- Title: Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe
- Title(参考訳): ディファレンシャルプライバシを用いた合成テキスト生成:単純かつ実用的なレシピ
- Authors: Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen,
Huan Sun, David Levitan and Robert Sim
- Abstract要約: 既存の法律は個人から収集された個人データの任意の処理を禁止している。
差分プライバシー(DP)のような正式なプライバシー保証付きで、そのようなデータの合成バージョンを生成することは、プライバシー問題に対処するための解決策であると考えられている。
生成言語モデルをDPで微調整することで、プライバシーの懸念を緩和しながら有用な合成テキストを生成することができる。
- 参考スコア(独自算出の注目度): 33.049021555866396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy concerns have attracted increasing attention in data-driven products
and services. Existing legislation forbids arbitrary processing of personal
data collected from individuals. Generating synthetic versions of such data
with a formal privacy guarantee such as differential privacy (DP) is considered
to be a solution to address privacy concerns. In this direction, we show a
simple, practical, and effective recipe in the text domain: simply fine-tuning
a generative language model with DP allows us to generate useful synthetic text
while mitigating privacy concerns. Through extensive empirical analyses, we
demonstrate that our method produces synthetic data that is competitive in
terms of utility with its non-private counterpart and meanwhile provides strong
protection against potential privacy leakages.
- Abstract(参考訳): プライバシに関する懸念は、データ駆動製品やサービスで注目を集めています。
既存の法律は個人から収集された個人データの任意の処理を禁じている。
ディファレンシャルプライバシ(dp)などの形式的プライバシ保証を備えたデータ合成バージョンの生成は、プライバシの懸念に対処するソリューションであると考えられている。
この方向では、テキスト領域において、単純で実用的で効果的なレシピを示し、DPで生成言語モデルを微調整するだけで、プライバシーの懸念を緩和しながら有用な合成テキストを生成することができる。
広範な実証分析を通じて,提案手法は,非プライベートなデータと実用面で競合する合成データを生成すると同時に,潜在的なプライバシー漏洩に対する強い保護を提供する。
関連論文リスト
- Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。
プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。
本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文 参考訳(メタデータ) (2023-12-12T10:20:04Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - PEARL: Data Synthesis via Private Embeddings and Adversarial
Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。
当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。
提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-08T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。