論文の概要: Differentially Private Reinforcement Learning with Self-Play
- arxiv url: http://arxiv.org/abs/2404.07559v1
- Date: Thu, 11 Apr 2024 08:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:39:15.961905
- Title: Differentially Private Reinforcement Learning with Self-Play
- Title(参考訳): セルフプレイによる個人的強化学習
- Authors: Dan Qiao, Yu-Xiang Wang,
- Abstract要約: 差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。
まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。
我々は、楽観的なナッシュ値とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 18.124829682487558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of multi-agent reinforcement learning (multi-agent RL) with differential privacy (DP) constraints. This is well-motivated by various real-world applications involving sensitive data, where it is critical to protect users' private information. We first extend the definitions of Joint DP (JDP) and Local DP (LDP) to two-player zero-sum episodic Markov Games, where both definitions ensure trajectory-wise privacy protection. Then we design a provably efficient algorithm based on optimistic Nash value iteration and privatization of Bernstein-type bonuses. The algorithm is able to satisfy JDP and LDP requirements when instantiated with appropriate privacy mechanisms. Furthermore, for both notions of DP, our regret bound generalizes the best known result under the single-agent RL case, while our regret could also reduce to the best known result for multi-agent RL without privacy constraints. To the best of our knowledge, these are the first line of results towards understanding trajectory-wise privacy protection in multi-agent RL.
- Abstract(参考訳): 差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。
これは、ユーザーの個人情報を保護することが重要となる機密データを含む様々な現実世界のアプリケーションによって動機付けられている。
まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を,両定義がトラジェクティブ・プライバシ保護を保証する2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。
そこで我々は,楽観的なナッシュ値反復とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。
このアルゴリズムは、適切なプライバシーメカニズムでインスタンス化されると、JDPとLCPの要件を満たすことができる。
さらに, DP の両概念に対して, 単一エージェント RL の場合において最もよく知られた結果を一般化し, プライバシ制約のないマルチエージェント RL では最もよく知られた結果に還元することができる。
我々の知る限りでは、これらは多エージェントRLにおける軌跡的プライバシー保護の理解に向けた最初の成果である。
関連論文リスト
- Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Differentially Private Regret Minimization in Episodic Markov Decision
Processes [6.396288020763144]
差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
論文 参考訳(メタデータ) (2021-12-20T15:12:23Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - Differentially Private Federated Bayesian Optimization with Distributed
Exploration [48.9049546219643]
我々は、DPを反復アルゴリズムに追加するための一般的なフレームワークを通じて、ディープニューラルネットワークのトレーニングに差分プライバシ(DP)を導入する。
DP-FTS-DEは高い実用性(競争性能)と高いプライバシー保証を実現する。
また,DP-FTS-DEがプライバシとユーティリティのトレードオフを引き起こすことを示すために,実世界の実験も行っている。
論文 参考訳(メタデータ) (2021-10-27T04:11:06Z) - Smoothed Differential Privacy [55.415581832037084]
微分プライバシー(DP)は、最悪のケース分析に基づいて広く受け入れられ、広く適用されているプライバシーの概念である。
本稿では, 祝賀されたスムーズな解析の背景にある最悪の平均ケースのアイデアに倣って, DPの自然な拡張を提案する。
サンプリング手順による離散的なメカニズムはDPが予測するよりもプライベートであるのに対して,サンプリング手順による連続的なメカニズムはスムーズなDP下では依然としてプライベートではないことが証明された。
論文 参考訳(メタデータ) (2021-07-04T06:55:45Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。