論文の概要: Harnessing large-language models to generate private synthetic text
- arxiv url: http://arxiv.org/abs/2306.01684v2
- Date: Thu, 11 Jan 2024 00:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 03:52:28.451524
- Title: Harnessing large-language models to generate private synthetic text
- Title(参考訳): 大規模言語モデルによる私的合成テキストの生成
- Authors: Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas
Terzis
- Abstract要約: DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
- 参考スコア(独自算出の注目度): 18.863579044812703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentially private training algorithms like DP-SGD protect sensitive
training data by ensuring that trained models do not reveal private
information. An alternative approach, which this paper studies, is to use a
sensitive dataset to generate synthetic data that is differentially private
with respect to the original data, and then non-privately training a model on
the synthetic data. Doing so has several advantages: synthetic data can be
reused for other tasks (including for hyper parameter tuning), retained
indefinitely, and shared with third parties without sacrificing privacy.
However, generating private synthetic data is much harder than training a
private model. To improve performance on text data, recent work has utilized
public data by starting with a pre-trained generative language model and
privately fine-tuning it on sensitive data. This model can be used to sample a
DP synthetic dataset. While this strategy seems straightforward, executing it
has proven problematic. Previous approaches either show significant performance
loss, or have, as we show, critical design flaws. In this paper we demonstrate
that a proper training objective along with tuning fewer parameters results in
excellent DP synthetic data quality. Our approach is competitive with direct
DP-training of downstream classifiers in terms of performance on downstream
tasks. Further, we demonstrate that our DP synthetic data is not only useful
for downstream classifier training, but also to tune those same models.
- Abstract(参考訳): DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本論文では, センシティブなデータセットを用いて, 元のデータに対して差分プライベートな合成データを生成し, 非プライベートに合成データ上でモデルをトレーニングする手法を提案する。
合成データは(ハイパーパラメータチューニングを含む)他のタスクのために再利用でき、無期限に保持され、プライバシを犠牲にすることなくサードパーティと共有される。
しかし、プライベートな合成データを生成することは、プライベートモデルのトレーニングよりもずっと難しい。
テキストデータの性能を向上させるため、最近の研究では、事前学習された生成言語モデルから、センシティブなデータにプライベートに微調整することで、パブリックデータを活用している。
このモデルはdp合成データセットのサンプルに使用することができる。
この戦略は単純そうに思えるが、実行には問題があった。
これまでのアプローチでは、パフォーマンスが著しく低下していたり、重要な設計上の欠陥があったりします。
本稿では,パラメータの調整の少ない適切な学習目標がDP合成データ品質に優れた結果をもたらすことを示す。
我々のアプローチは、下流タスクにおけるパフォーマンスの観点から、下流分類器の直接DP訓練と競合する。
さらに, dp合成データは下流分類訓練に有用であるだけでなく, それらのモデルのチューニングにも有用であることを示す。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - An Analysis of the Deployment of Models Trained on Private Tabular
Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。
差分プライベートな合成データ生成が分類に与える影響について検討する。
論文 参考訳(メタデータ) (2021-06-15T21:00:57Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。