論文の概要: Private Reinforcement Learning with PAC and Regret Guarantees
- arxiv url: http://arxiv.org/abs/2009.09052v1
- Date: Fri, 18 Sep 2020 20:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:40:02.767246
- Title: Private Reinforcement Learning with PAC and Regret Guarantees
- Title(参考訳): PACとRegret Guaranteeによる個人強化学習
- Authors: Giuseppe Vietri, Borja Balle, Akshay Krishnamurthy, Zhiwei Steven Wu
- Abstract要約: エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 69.4202374491817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by high-stakes decision-making domains like personalized medicine
where user information is inherently sensitive, we design privacy preserving
exploration policies for episodic reinforcement learning (RL). We first provide
a meaningful privacy formulation using the notion of joint differential privacy
(JDP)--a strong variant of differential privacy for settings where each user
receives their own sets of output (e.g., policy recommendations). We then
develop a private optimism-based learning algorithm that simultaneously
achieves strong PAC and regret bounds, and enjoys a JDP guarantee. Our
algorithm only pays for a moderate privacy cost on exploration: in comparison
to the non-private bounds, the privacy parameter only appears in lower-order
terms. Finally, we present lower bounds on sample complexity and regret for
reinforcement learning subject to JDP.
- Abstract(参考訳): ユーザ情報が本質的にセンシティブなパーソナライズドメディカル(パーソナライズドメディカル)のような高い意思決定領域を動機として,エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、各ユーザが独自の出力セット(例えば、ポリシーレコメンデーション)を受け取るような設定において、差分プライバシーの強いバリエーションである連立差分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベート楽観主義に基づく学習アルゴリズムを開発した。
我々のアルゴリズムは、探索の際のプライバシーコストを適度に抑えるだけであり、非私的境界と比較すると、プライバシーパラメータは下位の条件でのみ現れる。
最後に,JDP を対象とする強化学習において,サンプルの複雑さと後悔の限界を低くする。
関連論文リスト
- Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Algorithms with More Granular Differential Privacy Guarantees [65.3684804101664]
我々は、属性ごとのプライバシー保証を定量化できる部分微分プライバシー(DP)について検討する。
本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが個人全体のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-09-08T22:43:50Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Differentially Private Regret Minimization in Episodic Markov Decision
Processes [6.396288020763144]
差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
論文 参考訳(メタデータ) (2021-12-20T15:12:23Z) - Privately Publishable Per-instance Privacy [21.775752827149383]
客観的摂動によるパーソナライズドプライバシの損失を,pDP(Per-instance differential privacy)を用いてプライベートに共有する方法を検討する。
客観的な摂動によって学習したプライベートな経験的リスク最小化器をリリースする際のインスタンスごとのプライバシ損失を解析し、プライバシコストをほとんど必要とせず、個人的かつ正確にPDP損失を公表するための一連の方法を提案する。
論文 参考訳(メタデータ) (2021-11-03T15:17:29Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。