論文の概要: Differentially Private Synthetic Data via Foundation Model APIs 2: Text
- arxiv url: http://arxiv.org/abs/2403.01749v1
- Date: Mon, 4 Mar 2024 05:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:08:39.128887
- Title: Differentially Private Synthetic Data via Foundation Model APIs 2: Text
- Title(参考訳): Foundation Model APIによる異なるプライベートな合成データ2:テキスト
- Authors: Chulin Xie, Zinan Lin, Arturs Backurs, Sivakanth Gopi, Da Yu, Huseyin
A Inan, Harsha Nori, Haotian Jiang, Huishuai Zhang, Yin Tat Lee, Bo Li,
Sergey Yekhanin
- Abstract要約: 現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
- 参考スコア(独自算出の注目度): 57.64059482750924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text data has become extremely valuable due to the emergence of machine
learning algorithms that learn from it. A lot of high-quality text data
generated in the real world is private and therefore cannot be shared or used
freely due to privacy concerns. Generating synthetic replicas of private text
data with a formal privacy guarantee, i.e., differential privacy (DP), offers a
promising and scalable solution. However, existing methods necessitate DP
finetuning of large language models (LLMs) on private data to generate DP
synthetic data. This approach is not viable for proprietary LLMs (e.g.,
GPT-3.5) and also demands considerable computational resources for open-source
LLMs. Lin et al. (2024) recently introduced the Private Evolution (PE)
algorithm to generate DP synthetic images with only API access to diffusion
models. In this work, we propose an augmented PE algorithm, named Aug-PE, that
applies to the complex setting of text. We use API access to an LLM and
generate DP synthetic text without any model training. We conduct comprehensive
experiments on three benchmark datasets. Our results demonstrate that Aug-PE
produces DP synthetic text that yields competitive utility with the SOTA DP
finetuning baselines. This underscores the feasibility of relying solely on API
access of LLMs to produce high-quality DP synthetic texts, thereby facilitating
more accessible routes to privacy-preserving LLM applications. Our code and
data are available at https://github.com/AI-secure/aug-pe.
- Abstract(参考訳): テキストデータは、そこから学習する機械学習アルゴリズムの出現によって、非常に価値の高いものになっている。
現実世界で生成された多くの高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり利用したりできない。
プライベートテキストデータの合成レプリカを形式的なプライバシー保証、すなわち差分プライバシー(DP)で生成することは、有望でスケーラブルなソリューションを提供する。
しかし,既存の手法では,大規模言語モデル(llm)をプライベートデータに微調整してdp合成データを生成する必要がある。
このアプローチはプロプライエタリなLCM(例えば GPT-3.5)には有効ではなく、オープンソースのLCMにはかなりの計算資源を必要とする。
Lin et al. (2024)は先日,拡散モデルにのみアクセス可能なDP合成画像を生成するために,Private Evolution (PE)アルゴリズムを導入した。
本研究では,テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
LLMへのAPIアクセスを使用し、モデルトレーニングなしでDP合成テキストを生成する。
3つのベンチマークデータセットで包括的な実験を行う。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
これにより、LLMのAPIアクセスのみに頼って高品質のDP合成テキストを生成することが可能となり、プライバシー保護のLLMアプリケーションへのよりアクセスしやすいルートが実現可能になった。
私たちのコードとデータはhttps://github.com/ai-secure/aug-peで入手できます。
関連論文リスト
- Differentially Private Knowledge Distillation via Synthetic Text
Generation [6.144668575825851]
大規模言語モデル(LLM)は多くの下流タスクで最先端のパフォーマンスを実現している。
データプライバシの緊急性には、LPMがプライベートデータ上で差分プライバシー(DP)をトレーニングする必要がある。
本稿では, 微分プライベートLLMによって生成される合成データを利用した, 微分プライベートな知識蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-01T19:22:24Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Jellyfish: A Large Language Model for Data Preprocessing [10.914067455923847]
命令調整型ローカルLCMをユニバーサルDP問解器として検討する。
4つのDPタスクにまたがるデータセットの集合を選択する。
DP指導のためのデータセットであるJellyfishは,LLMのDP性能を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-12-04T07:01:54Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data [60.759755177369364]
大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。
本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。
我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。
ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。
PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (2022-01-14T01:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。