論文の概要: Harnessing large-language models to generate private synthetic text
- arxiv url: http://arxiv.org/abs/2306.01684v2
- Date: Thu, 11 Jan 2024 00:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 03:52:28.451524
- Title: Harnessing large-language models to generate private synthetic text
- Title(参考訳): 大規模言語モデルによる私的合成テキストの生成
- Authors: Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas
Terzis
- Abstract要約: DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
- 参考スコア(独自算出の注目度): 18.863579044812703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private training algorithms like DP-SGD protect sensitive
training data by ensuring that trained models do not reveal private
information. An alternative approach, which this paper studies, is to use a
sensitive dataset to generate synthetic data that is differentially private
with respect to the original data, and then non-privately training a model on
the synthetic data. Doing so has several advantages: synthetic data can be
reused for other tasks (including for hyper parameter tuning), retained
indefinitely, and shared with third parties without sacrificing privacy.
However, generating private synthetic data is much harder than training a
private model. To improve performance on text data, recent work has utilized
public data by starting with a pre-trained generative language model and
privately fine-tuning it on sensitive data. This model can be used to sample a
DP synthetic dataset. While this strategy seems straightforward, executing it
has proven problematic. Previous approaches either show significant performance
loss, or have, as we show, critical design flaws. In this paper we demonstrate
that a proper training objective along with tuning fewer parameters results in
excellent DP synthetic data quality. Our approach is competitive with direct
DP-training of downstream classifiers in terms of performance on downstream
tasks. Further, we demonstrate that our DP synthetic data is not only useful
for downstream classifier training, but also to tune those same models.
- Abstract(参考訳): DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本論文では, センシティブなデータセットを用いて, 元のデータに対して差分プライベートな合成データを生成し, 非プライベートに合成データ上でモデルをトレーニングする手法を提案する。
合成データは(ハイパーパラメータチューニングを含む)他のタスクのために再利用でき、無期限に保持され、プライバシを犠牲にすることなくサードパーティと共有される。
しかし、プライベートな合成データを生成することは、プライベートモデルのトレーニングよりもずっと難しい。
テキストデータの性能を向上させるため、最近の研究では、事前学習された生成言語モデルから、センシティブなデータにプライベートに微調整することで、パブリックデータを活用している。
このモデルはdp合成データセットのサンプルに使用することができる。
この戦略は単純そうに思えるが、実行には問題があった。
これまでのアプローチでは、パフォーマンスが著しく低下していたり、重要な設計上の欠陥があったりします。
本稿では,パラメータの調整の少ない適切な学習目標がDP合成データ品質に優れた結果をもたらすことを示す。
我々のアプローチは、下流タスクにおけるパフォーマンスの観点から、下流分類器の直接DP訓練と競合する。
さらに, dp合成データは下流分類訓練に有用であるだけでなく, それらのモデルのチューニングにも有用であることを示す。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining [13.823621924706348]
差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。
従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。
本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:04:53Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。