論文の概要: Differentially Private In-context Learning via Sampling Few-shot Mixed with Zero-shot Outputs
- arxiv url: http://arxiv.org/abs/2501.19287v1
- Date: Fri, 31 Jan 2025 16:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:06.683672
- Title: Differentially Private In-context Learning via Sampling Few-shot Mixed with Zero-shot Outputs
- Title(参考訳): ゼロショット出力を混合したファウショットサンプリングによる差分プライベートインコンテキスト学習
- Authors: James Flemings, Haosheng Gan, Hongyi Li, Meisam Razaviyayn, Murali Annavaram,
- Abstract要約: インコンテキスト学習(ICL)は、関連するインプット・アウトプット・サンプル(デモ)でプロンプトを増強することで改善できる。
ICLのデモには、プライバシーに敏感な情報が含まれており、LLM出力によってリークまたは/またはリグルギットすることができる。
ゼロショット出力と混合した複数のワンショット出力の積をサンプリングしてDPテキストを生成するデコードフレームワークである$textttdps-mozo$を提案する。
- 参考スコア(独自算出の注目度): 13.790550802100842
- License:
- Abstract: In-context learning (ICL) has shown promising improvement in downstream task adaptation of LLMs by augmenting prompts with relevant input-output examples (demonstrations). However, the ICL demonstrations can contain privacy-sensitive information, which can be leaked and/or regurgitated by the LLM output. Differential Privacy (DP), a widely adopted privacy safeguard, has emerged to mitigate this privacy leakage, with recent work demonstrating strong privacy-utility tradeoffs in classification tasks for ICL. However, generation tasks for ICL are challenging due to the high-dimensional output space of open-ended generation. To this end, we propose $\texttt{dps-mozo}$, Differentially Private Sampling by Mixing One-shot with Zero-shot Outputs, a decoding framework that generates DP text by sampling from the product of multiple one-shot outputs mixed with a zero-shot output. This mixing effectively reduces the amount of information that can be leaked by each demonstration. By utilizing the inherent randomness in sampling from the mixed distributions, we can achieve DP without adding noise, thereby improving the privacy-utility tradeoff. Our experimental evaluations show $\texttt{dps-mozo}$ can achieve a strong privacy guarantee, $\epsilon=2$, with minimal utility degradation compared to non-private few-shot learning, $\textbf{0.3}$% ROUGE-L F1 score decrease on the SAMSum dataset with Gemma 2 2B.
- Abstract(参考訳): In-context Learning (ICL) は、関連する入力出力例(デモ)でプロンプトを増強することにより、LLMの下流タスク適応に有望な改善を示す。
しかし、ICLのデモにはプライバシーに敏感な情報が含まれており、LLM出力によって漏洩または/または取り消しが可能である。
広く採用されているプライバシー保護ツールである差分プライバシー(DP)は、このプライバシー漏洩を軽減し、ICLの分類タスクにおいて強力なプライバシー利用トレードオフを示している。
しかし、オープンエンド生成の高次元出力空間のため、ICLの生成タスクは困難である。
この目的のために,ゼロショット出力を混合した複数のワンショット出力の製品からサンプリングしてDPテキストを生成するデコードフレームワークであるZero-shot Outputsと1ショットの混合による差分的プライベートサンプリングを,$\texttt{dps-mozo}$, Differentially Private Smplingを提案する。
このミキシングは、各デモによってリークされる情報量を効果的に削減する。
混合分布からのサンプリングにおいて固有のランダム性を利用することで、ノイズを加えることなくDPを実現し、プライバシーとユーティリティのトレードオフを改善することができる。
実験の結果、$\texttt{dps-mozo}$は強力なプライバシ保証を達成でき、$\epsilon=2$は非プライベートな少数ショット学習と比較して最小限のユーティリティ劣化、$\textbf{0.3}$% ROUGE-L F1スコアはGemma 2 2BのSAMSumデータセットで減少することがわかった。
関連論文リスト
- Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Adaptively Private Next-Token Prediction of Large Language Models [13.297381972044558]
プライバシを損なう可能性のあるクエリをフィルタリングする,ノイズの多いスクリーニング機構を導入する。
AdaPMixEDは、元のPMixED上のユーティリティを保持しながら、プライバシ損失を16倍に削減できる。
論文 参考訳(メタデータ) (2024-10-02T20:34:24Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Differentially Private Knowledge Distillation via Synthetic Text Generation [5.201318326501886]
本研究では,差分プライベートな知識蒸留アルゴリズムであるDistilDPを提案する。
DistilDPは、差分的にプライベートなLLMによって生成された合成データを利用する。
実験の結果, DistilDPは既存のベースラインよりも実用性を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-03-01T19:22:24Z) - Privacy-Preserving In-Context Learning with Differentially Private
Few-Shot Generation [37.55812121348268]
プライベートデータセット上の大きな言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、プライバシリスクを引き起こす。
本稿では,形式的な差分プライバシー保証付きプライベートデータセットから合成数発のデモを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-21T03:59:00Z) - Privacy Amplification via Shuffling: Unified, Simplified, and Tightened [20.10078781197001]
シングルメッセージとマルチメッセージのシャッフルプロトコルの両方において、プライバシーを増幅するための包括的なフレームワークを提案する。
我々の理論的な結果は、特に極端確率設計を持つ局所確率化器に対して、我々のフレームワークがより厳密な境界を提供することを示している。
私たちのバウンダリは、非常に効率的な$tildeO(n)$アルゴリズムで、$n=108$ユーザに対して10$秒未満で、数値的にプライバシを増幅します。
論文 参考訳(メタデータ) (2023-04-11T06:27:25Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。