論文の概要: Local Differential Privacy for Regret Minimization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.07778v3
- Date: Wed, 27 Oct 2021 12:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:46:45.859230
- Title: Local Differential Privacy for Regret Minimization in Reinforcement
Learning
- Title(参考訳): 強化学習におけるレグレット最小化のための局所微分プライバシー
- Authors: Evrard Garcelon, Vianney Perchet, Ciara Pike-Burke, Matteo Pirotta
- Abstract要約: 有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 33.679678503441565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms are widely used in domains where it is
desirable to provide a personalized service. In these domains it is common that
user data contains sensitive information that needs to be protected from third
parties. Motivated by this, we study privacy in the context of finite-horizon
Markov Decision Processes (MDPs) by requiring information to be obfuscated on
the user side. We formulate this notion of privacy for RL by leveraging the
local differential privacy (LDP) framework. We establish a lower bound for
regret minimization in finite-horizon MDPs with LDP guarantees which shows that
guaranteeing privacy has a multiplicative effect on the regret. This result
shows that while LDP is an appealing notion of privacy, it makes the learning
problem significantly more complex. Finally, we present an optimistic algorithm
that simultaneously satisfies $\varepsilon$-LDP requirements, and achieves
$\sqrt{K}/\varepsilon$ regret in any finite-horizon MDP after $K$ episodes,
matching the lower bound dependency on the number of episodes $K$.
- Abstract(参考訳): 強化学習アルゴリズムは、パーソナライズされたサービスの提供が望ましいドメインで広く使われている。
これらのドメインでは、ユーザデータがサードパーティから保護される必要がある機密情報を含んでいることが一般的である。
そこで我々は,有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーについて,ユーザ側で情報を難読化することを求める。
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
有限水平MDPにおいて,プライバシの保証が後悔に乗じる影響があることを示唆するLPP保証付き後悔最小化の限界を確立する。
この結果から, LDPはプライバシーという魅力的な概念であるが, 学習問題をはるかに複雑にしていることがわかる。
最後に、$\varepsilon$-LDP要件を同時に満たし、$K$エピソード後の任意の有限水平MDPにおいて$\sqrt{K}/\varepsilon$後悔を達成する楽観的なアルゴリズムを示し、$K$エピソード数に対する低い境界依存性を一致させる。
関連論文リスト
- Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Improved Regret for Differentially Private Exploration in Linear MDP [31.567811502343552]
医療記録などのセンシティブなデータに依存する環境におけるシーケンシャルな意思決定におけるプライバシ保護探索について検討する。
我々は、エピソード数に対して$O(sqrtK)$を最適に依存した、改善された後悔率を持つプライベートアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-02T21:32:09Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Differentially Private Regret Minimization in Episodic Markov Decision
Processes [6.396288020763144]
差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
論文 参考訳(メタデータ) (2021-12-20T15:12:23Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。