論文の概要: No-regret Exploration in Shuffle Private Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.11647v1
- Date: Mon, 18 Nov 2024 15:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:57.877929
- Title: No-regret Exploration in Shuffle Private Reinforcement Learning
- Title(参考訳): シャッフル私的強化学習におけるノンレグレット探索
- Authors: Shaojie Bai, Mohammad Sadegh Talebi, Chengcheng Zhao, Peng Cheng, Jiming Chen,
- Abstract要約: パーソナライズされたサービスにおけるユーザのプライバシの懸念に対処するために、差分プライバシー(DP)がエピソード強化学習(RL)に導入された。
シャッフルモデルでは,信頼されたシャッフルが中央エージェントに送信する前に,ユーザのデータをランダムに置換する。
分析の結果,アルゴリズムは集中型モデルに匹敵するほぼ最適の後悔を達成し,プライバシコストの点で局所モデルよりも大幅に優れていることがわかった。
- 参考スコア(独自算出の注目度): 18.142491344065046
- License:
- Abstract: Differential privacy (DP) has recently been introduced into episodic reinforcement learning (RL) to formally address user privacy concerns in personalized services. Previous work mainly focuses on two trust models of DP: the central model, where a central agent is responsible for protecting users' sensitive data, and the (stronger) local model, where the protection occurs directly on the user side. However, they either require a trusted central agent or incur a significantly higher privacy cost, making it unsuitable for many scenarios. This work introduces a trust model stronger than the central model but with a lower privacy cost than the local model, leveraging the emerging \emph{shuffle} model of privacy. We present the first generic algorithm for episodic RL under the shuffle model, where a trusted shuffler randomly permutes a batch of users' data before sending it to the central agent. We then instantiate the algorithm using our proposed shuffle Privatizer, relying on a shuffle private binary summation mechanism. Our analysis shows that the algorithm achieves a near-optimal regret bound comparable to that of the centralized model and significantly outperforms the local model in terms of privacy cost.
- Abstract(参考訳): 差分プライバシー(DP)は、パーソナライズされたサービスにおけるユーザのプライバシの懸念に対処するために、最近、エピソード強化学習(RL)に導入された。
従来の研究は主にDPの2つの信頼モデルに焦点を当てており、中央エージェントがユーザーの機密データを保護している中央モデルと、その保護がユーザ側で直接発生する(ストロンガー)局所モデルである。
しかし、信頼できる中央エージェントを必要とするか、はるかに高いプライバシーコストがかかるため、多くのシナリオには適さない。
この研究は、中央モデルよりも強力な信頼モデルを導入するが、ローカルモデルよりも低いプライバシコストを持ち、新たなプライバシのemph{shuffle}モデルを活用する。
シャッフルモデルでは,信頼されたシャッフルが中央エージェントに送信する前に,ユーザのデータをランダムに置換する。
次に,提案したシャッフルプリバタイザを用いてアルゴリズムをインスタンス化し,シャッフルプライベートバイナリ和機構に依存する。
分析の結果,アルゴリズムは集中型モデルに匹敵するほぼ最適の後悔を達成し,プライバシコストの点で局所モデルよりも大幅に優れていることがわかった。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Enhanced Privacy Bound for Shuffle Model with Personalized Privacy [32.08637708405314]
Differential Privacy(DP)は、ローカルユーザと中央データキュレーターの間の中間信頼サーバを導入する、強化されたプライバシプロトコルである。
これは、局所的にランダム化されたデータを匿名化しシャッフルすることで、中央のDP保証を著しく増幅する。
この研究は、各ユーザーごとにパーソナライズされたローカルプライバシを必要とする、より実践的な設定のために、中央のプライバシ境界を導出することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-25T16:11:56Z) - Differentially Private Aggregation via Imperfect Shuffling [64.19885806149958]
本稿では,メッセージがほぼ均一にシャッフルされる不完全なシャッフル差分プライバシモデルを導入し,キュレーターによるプライベートアグリゲーションの検証を行った。
驚くべきことに、不完全なシャッフルモデルには追加のエラーオーバーヘッドは必要ない。
論文 参考訳(メタデータ) (2023-08-28T17:34:52Z) - Echo of Neighbors: Privacy Amplification for Personalized Private
Federated Learning with Shuffle Model [21.077469463027306]
協調トレーニングの一般的なパラダイムであるフェデレートラーニングは、プライバシ攻撃に弱い。
この作業は、シャッフルモデルのプライバシー増幅効果を活用することで、パーソナライズされたローカルプライバシの下でのモデルプライバシを強化するために構築される。
私たちの知る限りでは、シャッフルがパーソナライズされたローカルプライバシに与える影響は、初めて考慮される。
論文 参考訳(メタデータ) (2023-04-11T21:48:42Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - Tight Differential Privacy Guarantees for the Shuffle Model with $k$-Randomized Response [6.260747047974035]
ほとんどの差分プライベート(DP)アルゴリズムは、サードパーティがデータセットやユーザがローカルにデータを摂動するローカルモデル上で作成したクエリにノイズを挿入することを前提としている。
最近提案されたシャッフルモデルは、中央パラダイムと局所パラダイムの中間フレームワークである。
合成データと実データの両方を用いて、シャッフルモデルのプライバシーユーティリティトレードオフと、民営化された中央データの比較実験を行う。
論文 参考訳(メタデータ) (2022-05-18T10:44:28Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Network Shuffling: Privacy Amplification via Random Walks [21.685747588753514]
ネットワーク/グラフ上でランダムウォーク方式でデータを交換する分散メカニズムであるネットワークシャッフルを導入する。
プライバシーの増幅率は、均一シャッフルのような他のプライバシーの増幅手法と類似していることが示される。
論文 参考訳(メタデータ) (2022-04-08T08:36:06Z) - Shuffle Private Linear Contextual Bandits [9.51828574518325]
シャッフル・アルゴリズム・トラスト・モデルに基づく線形文脈帯域の一般的な枠組みを提案する。
両方のインスタンス化が、ローカルモデルの精度を大幅に向上させる、後悔の保証につながることを証明します。
また, 合成データのシミュレーションにより, この後悔行動を検証する。
論文 参考訳(メタデータ) (2022-02-11T11:53:22Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。