論文の概要: Differentially Private Synthetic Data via Foundation Model APIs 2: Text
- arxiv url: http://arxiv.org/abs/2403.01749v1
- Date: Mon, 4 Mar 2024 05:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:08:39.128887
- Title: Differentially Private Synthetic Data via Foundation Model APIs 2: Text
- Title(参考訳): Foundation Model APIによる異なるプライベートな合成データ2:テキスト
- Authors: Chulin Xie, Zinan Lin, Arturs Backurs, Sivakanth Gopi, Da Yu, Huseyin
A Inan, Harsha Nori, Haotian Jiang, Huishuai Zhang, Yin Tat Lee, Bo Li,
Sergey Yekhanin
- Abstract要約: 現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
- 参考スコア(独自算出の注目度): 57.64059482750924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text data has become extremely valuable due to the emergence of machine
learning algorithms that learn from it. A lot of high-quality text data
generated in the real world is private and therefore cannot be shared or used
freely due to privacy concerns. Generating synthetic replicas of private text
data with a formal privacy guarantee, i.e., differential privacy (DP), offers a
promising and scalable solution. However, existing methods necessitate DP
finetuning of large language models (LLMs) on private data to generate DP
synthetic data. This approach is not viable for proprietary LLMs (e.g.,
GPT-3.5) and also demands considerable computational resources for open-source
LLMs. Lin et al. (2024) recently introduced the Private Evolution (PE)
algorithm to generate DP synthetic images with only API access to diffusion
models. In this work, we propose an augmented PE algorithm, named Aug-PE, that
applies to the complex setting of text. We use API access to an LLM and
generate DP synthetic text without any model training. We conduct comprehensive
experiments on three benchmark datasets. Our results demonstrate that Aug-PE
produces DP synthetic text that yields competitive utility with the SOTA DP
finetuning baselines. This underscores the feasibility of relying solely on API
access of LLMs to produce high-quality DP synthetic texts, thereby facilitating
more accessible routes to privacy-preserving LLM applications. Our code and
data are available at https://github.com/AI-secure/aug-pe.
- Abstract(参考訳): テキストデータは、そこから学習する機械学習アルゴリズムの出現によって、非常に価値の高いものになっている。
現実世界で生成された多くの高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり利用したりできない。
プライベートテキストデータの合成レプリカを形式的なプライバシー保証、すなわち差分プライバシー(DP)で生成することは、有望でスケーラブルなソリューションを提供する。
しかし,既存の手法では,大規模言語モデル(llm)をプライベートデータに微調整してdp合成データを生成する必要がある。
このアプローチはプロプライエタリなLCM(例えば GPT-3.5)には有効ではなく、オープンソースのLCMにはかなりの計算資源を必要とする。
Lin et al. (2024)は先日,拡散モデルにのみアクセス可能なDP合成画像を生成するために,Private Evolution (PE)アルゴリズムを導入した。
本研究では,テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
LLMへのAPIアクセスを使用し、モデルトレーニングなしでDP合成テキストを生成する。
3つのベンチマークデータセットで包括的な実験を行う。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
これにより、LLMのAPIアクセスのみに頼って高品質のDP合成テキストを生成することが可能となり、プライバシー保護のLLMアプリケーションへのよりアクセスしやすいルートが実現可能になった。
私たちのコードとデータはhttps://github.com/ai-secure/aug-peで入手できます。
関連論文リスト
- Private Text Generation by Seeding Large Language Model Prompts [13.407214545457778]
感性入力コーパスから個人用合成テキストコーパスを生成するDP-KPSを提案する。
下流MLテキスト分類タスクにおけるDP-KPSの評価を行い、生成したコーパスが元のテキストの予測能力の多くを保持することを示す。
論文 参考訳(メタデータ) (2025-02-18T16:50:38Z) - Is API Access to LLMs Useful for Generating Private Synthetic Tabular Data? [19.72500788849435]
差分プライベート(DP)合成データは、個人データの分析を可能にする汎用的なツールである。
大規模言語モデル(LLM)の最近の進歩は、DP合成データ生成を改善するための多くのアルゴリズム技術にインスピレーションを与えている。
あるアプローチの族は、基礎モデル重み付けにDP微調整を用いるが、最先端モデルのモデル重み付けは公開されていないかもしれない。
論文 参考訳(メタデータ) (2025-02-10T15:23:52Z) - Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model [13.28430346661924]
差分プライベート(DP)合成データは、プライバシーを損なうことなく、プライベートデータの価値を解放するための重要なツールとなっている。
プライベート・エボリューション(PE)はDP合成データを生成するための有望な方法として登場した。
計算機グラフィックスベースの画像合成ツールであるシミュレーターが、PEフレームワーク内で効果的なAPIとして機能することを示します。
論文 参考訳(メタデータ) (2025-02-08T09:50:30Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Differentially Private Knowledge Distillation via Synthetic Text Generation [5.201318326501886]
本研究では,差分プライベートな知識蒸留アルゴリズムであるDistilDPを提案する。
DistilDPは、差分的にプライベートなLLMによって生成された合成データを利用する。
実験の結果, DistilDPは既存のベースラインよりも実用性を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-03-01T19:22:24Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。
ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。
PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (2022-01-14T01:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。