論文の概要: Private Text Generation by Seeding Large Language Model Prompts
- arxiv url: http://arxiv.org/abs/2502.13193v1
- Date: Tue, 18 Feb 2025 16:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:31.187292
- Title: Private Text Generation by Seeding Large Language Model Prompts
- Title(参考訳): 大規模言語モデルによる私的テキスト生成
- Authors: Supriya Nagesh, Justin Y. Chen, Nina Mishra, Tal Wagner,
- Abstract要約: 感性入力コーパスから個人用合成テキストコーパスを生成するDP-KPSを提案する。
下流MLテキスト分類タスクにおけるDP-KPSの評価を行い、生成したコーパスが元のテキストの予測能力の多くを保持することを示す。
- 参考スコア(独自算出の注目度): 13.407214545457778
- License:
- Abstract: We explore how private synthetic text can be generated by suitably prompting a large language model (LLM). This addresses a challenge for organizations like hospitals, which hold sensitive text data like patient medical records, and wish to share it in order to train machine learning models for medical tasks, while preserving patient privacy. Methods that rely on training or finetuning a model may be out of reach, either due to API limits of third-party LLMs, or due to ethical and legal prohibitions on sharing the private data with the LLM itself. We propose Differentially Private Keyphrase Prompt Seeding (DP-KPS), a method that generates a private synthetic text corpus from a sensitive input corpus, by accessing an LLM only through privatized prompts. It is based on seeding the prompts with private samples from a distribution over phrase embeddings, thus capturing the input corpus while achieving requisite output diversity and maintaining differential privacy. We evaluate DP-KPS on downstream ML text classification tasks, and show that the corpora it generates preserve much of the predictive power of the original ones. Our findings offer hope that institutions can reap ML insights by privately sharing data with simple prompts and little compute.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) を適切に促すことにより,プライベートな合成テキストを生成する方法について検討する。
これは、患者の医療記録のような機密性の高いテキストデータを保有する病院のような組織にとっての課題であり、患者のプライバシを保ちながら、医療タスクのための機械学習モデルをトレーニングするためにそれを共有したいと願っている。
モデルの訓練や微調整に依存する方法は、サードパーティのLLMのAPI制限や、LLM自体とプライベートデータを共有することの倫理的および法的禁止のため、手に入らない場合がある。
本稿では,機密入力コーパスから個人用合成テキストコーパスを生成するDP-KPS法を提案する。
これは、フレーズ埋め込み上の分布からプライベートサンプルでプロンプトをシードし、必要な出力の多様性を達成しつつ入力コーパスをキャプチャし、差分プライバシーを維持することに基づいている。
下流MLテキスト分類タスクにおけるDP-KPSの評価を行い、生成したコーパスが元のテキストの予測能力の多くを保持することを示す。
私たちの発見は、簡単なプロンプトと少ない計算でデータをプライベートに共有することで、機関がMLの洞察を享受できることを期待しています。
関連論文リスト
- Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer [57.04801796205638]
大きな言語モデル(LLM)は、様々なタスクのための支配的なツールとして現れています。
しかし、データプライバシに関する懸念は、調整されたプロンプトが機密情報に依存しているため、障害となる。
本稿では,DP-OPT(Dis Differentially-Private Offsite Prompt Tuning)を提案する。
論文 参考訳(メタデータ) (2023-11-27T02:01:10Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Are Chatbots Ready for Privacy-Sensitive Applications? An Investigation
into Input Regurgitation and Prompt-Induced Sanitization [4.01610127647615]
ChatGPTは個人識別可能な情報(PII)を57.4%の症例で口頭で保持する。
本稿では,ChatGPTのプライバシ関連ポリシとメカニズムに対する認識を直接指示し,準拠したアウトプットを提供することで,ChatGPTの認識を探索する。
論文 参考訳(メタデータ) (2023-05-24T10:48:05Z) - CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。
CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。
実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文 参考訳(メタデータ) (2021-08-27T14:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。