論文の概要: Local Differential Privacy for Regret Minimization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.07778v3
- Date: Wed, 27 Oct 2021 12:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:46:45.859230
- Title: Local Differential Privacy for Regret Minimization in Reinforcement
Learning
- Title(参考訳): 強化学習におけるレグレット最小化のための局所微分プライバシー
- Authors: Evrard Garcelon, Vianney Perchet, Ciara Pike-Burke, Matteo Pirotta
- Abstract要約: 有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 33.679678503441565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms are widely used in domains where it is
desirable to provide a personalized service. In these domains it is common that
user data contains sensitive information that needs to be protected from third
parties. Motivated by this, we study privacy in the context of finite-horizon
Markov Decision Processes (MDPs) by requiring information to be obfuscated on
the user side. We formulate this notion of privacy for RL by leveraging the
local differential privacy (LDP) framework. We establish a lower bound for
regret minimization in finite-horizon MDPs with LDP guarantees which shows that
guaranteeing privacy has a multiplicative effect on the regret. This result
shows that while LDP is an appealing notion of privacy, it makes the learning
problem significantly more complex. Finally, we present an optimistic algorithm
that simultaneously satisfies $\varepsilon$-LDP requirements, and achieves
$\sqrt{K}/\varepsilon$ regret in any finite-horizon MDP after $K$ episodes,
matching the lower bound dependency on the number of episodes $K$.
- Abstract(参考訳): 強化学習アルゴリズムは、パーソナライズされたサービスの提供が望ましいドメインで広く使われている。
これらのドメインでは、ユーザデータがサードパーティから保護される必要がある機密情報を含んでいることが一般的である。
そこで我々は,有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーについて,ユーザ側で情報を難読化することを求める。
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
有限水平MDPにおいて,プライバシの保証が後悔に乗じる影響があることを示唆するLPP保証付き後悔最小化の限界を確立する。
この結果から, LDPはプライバシーという魅力的な概念であるが, 学習問題をはるかに複雑にしていることがわかる。
最後に、$\varepsilon$-LDP要件を同時に満たし、$K$エピソード後の任意の有限水平MDPにおいて$\sqrt{K}/\varepsilon$後悔を達成する楽観的なアルゴリズムを示し、$K$エピソード数に対する低い境界依存性を一致させる。
関連論文リスト
- Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - Improved Regret for Differentially Private Exploration in Linear MDP [31.567811502343552]
医療記録などのセンシティブなデータに依存する環境におけるシーケンシャルな意思決定におけるプライバシ保護探索について検討する。
我々は、エピソード数に対して$O(sqrtK)$を最適に依存した、改善された後悔率を持つプライベートアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-02T21:32:09Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Differentially Private Regret Minimization in Episodic Markov Decision
Processes [6.396288020763144]
差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
論文 参考訳(メタデータ) (2021-12-20T15:12:23Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。