論文の概要: Adaptively Private Next-Token Prediction of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.02016v1
- Date: Wed, 2 Oct 2024 20:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:34:57.621028
- Title: Adaptively Private Next-Token Prediction of Large Language Models
- Title(参考訳): 大規模言語モデルの適応的次世代予測
- Authors: James Flemings, Meisam Razaviyayn, Murali Annavaram,
- Abstract要約: プライバシを損なう可能性のあるクエリをフィルタリングする,ノイズの多いスクリーニング機構を導入する。
AdaPMixEDは、元のPMixED上のユーティリティを保持しながら、プライバシ損失を16倍に削減できる。
- 参考スコア(独自算出の注目度): 13.297381972044558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) proliferate, developing privacy safeguards for these models is crucial. One popular safeguard involves training LLMs in a differentially private manner. However, such solutions are shown to be computationally expensive and detrimental to the utility of these models. Since LLMs are deployed on the cloud and thus only accessible via an API, a Machine Learning as a Service (MLaaS) provider can protect its downstream data by privatizing the predictions during the decoding process. However, the practicality of such solutions still largely lags behind DP training methods. One recent promising approach, Private Mixing of Ensemble Distributions (PMixED), avoids additive noise by sampling from the output distributions of private LLMs mixed with the output distribution of a public model. Yet, PMixED must satisfy a fixed privacy level for a given number of queries, which is difficult for an analyst to estimate before inference and, hence, does not scale. To this end, we relax the requirements to a more practical setting by introducing Adaptive PMixED (AdaPMixED), a private decoding framework based on PMixED that is adaptive to the private and public output distributions evaluated on a given input query. In this setting, we introduce a noisy screening mechanism that filters out queries with potentially expensive privacy loss, and a data-dependent analysis that exploits the divergence of the private and public output distributions in its privacy loss calculation. Our experimental evaluations demonstrate that our mechanism and analysis can reduce the privacy loss by 16x while preserving the utility over the original PMixED. Furthermore, performing 100K predictions with AdaPMixED still achieves strong utility and a reasonable data-dependent privacy loss of 5.25.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及に伴い、これらのモデルのプライバシ保護の開発が不可欠である。
人気のあるセーフガードの1つは、異なるプライベートな方法でLLMを訓練することである。
しかしながら、そのような解は計算コストが高く、これらのモデルの実用性に有害であることが示されている。
LLMはクラウド上にデプロイされ、API経由でのみアクセス可能であるため、MLaaS(Machine Learning as a Service)プロバイダは、デコーディングプロセス中に予測を民営化することで、下流データを保護することができる。
しかし、そのようなソリューションの実用性は依然としてDP訓練法に遅れを取っている。
最近の有望なアプローチであるPMixED(Private Mixing of Ensemble Distributions)は、パブリックモデルの出力分布と混在するプライベートLLMの出力分布からサンプリングすることで、加算ノイズを回避する。
しかし、PMixEDは所定の数のクエリに対して一定のプライバシレベルを満たさなければならない。
そこで我々は, PMixEDをベースとしたプライベートデコードフレームワークであるAdaptive PMixED (AdaPMixED) を導入することで, 要求をより実用的な設定に緩和する。
本稿では,潜在的に高価なプライバシ損失を伴うクエリをフィルタリングするノイズスクリーニング機構と,プライバシ損失計算におけるプライベートおよびパブリックのアウトプット分布のばらつきを利用したデータ依存分析を導入する。
実験により,元のPMixEDよりも有効性を保ちながら,我々のメカニズムと分析によりプライバシ損失を16倍に削減できることが示された。
さらに、AdaPMixEDで100Kの予測を実行することで、強力なユーティリティを実現し、適切なデータ依存のプライバシ損失は5.25である。
関連論文リスト
- Differentially Private Next-Token Prediction of Large Language Models [13.297381972044558]
差分プライバシーを保証するためにモデルをトレーニングするDP-SGDは、ホワイトボックスがモデルにアクセスできるという敵の能力を過大評価する。
本稿では,次トーケンサンプリングの本質を生かした,次トーケン予測のためのプライベート予測プロトコルPMixEDと,差分プライバシーを実現するための公開モデルを提案する。
その結果,PMixEDはサンプルレベルのプライバシよりも強力なプライバシ保証を実現し,プライバシ$epsilon=8$でDP-SGDを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-03-22T22:27:44Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Multi-Message Shuffled Privacy in Federated Learning [2.6778110563115542]
本稿では,通信制約下での分散最適化について検討する。
最適化にSGDを用いたサーバは、分散平均推定(DME)を用いたモデル更新のためのクライアント側局所勾配を集約する
最近開発されたMMS(Multi-message shuffled)プライバシーフレームワークを用いて,通信効率の良いプライベートDMEを開発する。
論文 参考訳(メタデータ) (2023-02-22T05:23:52Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - Private Prediction Sets [72.75711776601973]
機械学習システムは、個人のプライバシーの確実な定量化と保護を必要とする。
これら2つのデシラタを共同で扱う枠組みを提案する。
本手法を大規模コンピュータビジョンデータセット上で評価する。
論文 参考訳(メタデータ) (2021-02-11T18:59:11Z) - Graph-Homomorphic Perturbations for Private Decentralized Learning [64.26238893241322]
ローカルな見積もりの交換は、プライベートデータに基づくデータの推測を可能にする。
すべてのエージェントで独立して選択された摂動により、パフォーマンスが著しく低下する。
本稿では,特定のヌル空間条件に従って摂動を構成する代替スキームを提案する。
論文 参考訳(メタデータ) (2020-10-23T10:35:35Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。