論文の概要: Near-Optimal Differentially Private Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.04680v1
- Date: Fri, 9 Dec 2022 06:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:01:20.978087
- Title: Near-Optimal Differentially Private Reinforcement Learning
- Title(参考訳): 準最適微分自己強化学習
- Authors: Dan Qiao, Yu-Xiang Wang
- Abstract要約: 差分プライバシー制約による強化学習におけるオンライン探索について検討する。
共同微分プライバシ(JDP)と局所微分プライバシ(LDP)の下では、非回帰学習が可能であることが確立されている。
我々は、情報理論上の非私的学習の下位境界に一致する$widetildeO(sqrtSAH2T+S2AH3/epsilon)$を後悔する$epsilon$-JDPアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 16.871660060209674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by personalized healthcare and other applications involving
sensitive data, we study online exploration in reinforcement learning with
differential privacy (DP) constraints. Existing work on this problem
established that no-regret learning is possible under joint differential
privacy (JDP) and local differential privacy (LDP) but did not provide an
algorithm with optimal regret. We close this gap for the JDP case by designing
an $\epsilon$-JDP algorithm with a regret of
$\widetilde{O}(\sqrt{SAH^2T}+S^2AH^3/\epsilon)$ which matches the
information-theoretic lower bound of non-private learning for all choices of
$\epsilon> S^{1.5}A^{0.5} H^2/\sqrt{T}$. In the above, $S$, $A$ denote the
number of states and actions, $H$ denotes the planning horizon, and $T$ is the
number of steps. To the best of our knowledge, this is the first private RL
algorithm that achieves \emph{privacy for free} asymptotically as $T\rightarrow
\infty$. Our techniques -- which could be of independent interest -- include
privately releasing Bernstein-type exploration bonuses and an improved method
for releasing visitation statistics. The same techniques also imply a slightly
improved regret bound for the LDP case.
- Abstract(参考訳): パーソナライズされたヘルスケアや他の機密データを含むアプリケーションによって動機づけられ、ディファレンシャルプライバシ(dp)制約付き強化学習におけるオンライン探索を研究した。
この問題の既存の研究は、JDP(Joint differential privacy)とLDP(Local differential privacy)の下では、非回帰学習が可能であることを証明したが、最適な後悔を伴うアルゴリズムは提供しなかった。
このギャップを埋めるために、$\epsilon> s^{1.5}a^{0.5} h^2/\sqrt{t}$ の全ての選択について、非プライベート学習の情報理論下限に一致する$\sqrt{o}(\sqrt{sah^2t}+s^2ah^3/\epsilon)$ の後悔を持つ$\epsilon$-jdpアルゴリズムを設計する。
上記の例では、$s$, $a$ は状態とアクションの数を表し、$h$ は計画の地平線を表し、$t$ はステップの数を表す。
私たちの知る限りでは、これは$t\rightarrow \infty$という漸近的に \emph{privacy for free} を達成する最初のプライベートrlアルゴリズムである。
我々の技術には、ベルンシュタインタイプの探査ボーナスをプライベートにリリースすることや、訪問統計を公表する方法の改善が含まれています。
同様の手法は、LPPのケースに対してわずかに改善された後悔を意味する。
関連論文リスト
- Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Private Online Prediction from Experts: Separations and Faster Rates [74.52487417350221]
専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。
本研究では,非適応的敵に対する最良な既存アルゴリズムの残差を克服する新たなアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2022-10-24T18:40:19Z) - Differentially Private Temporal Difference Learning with Stochastic
Nonconvex-Strongly-Concave Optimization [17.361143427007224]
時間差(TD)学習は、強化学習における政策を評価するために広く用いられている手法である。
本稿では,非線形値関数を用いたTD学習におけるプライバシ保護について考察する。
DPTDは、トランジションに符号化された機密情報に対して$epsilon,n-differential privacy (DP) を保証し、TD学習の本来のパワーを維持できることを示す。
論文 参考訳(メタデータ) (2022-01-25T16:48:29Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Locally Differentially Private Reinforcement Learning for Linear Mixture
Markov Decision Processes [78.27542864367821]
強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。
ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。
線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T17:44:09Z) - Differential Privacy in Personalized Pricing with Nonparametric Demand
Models [15.036147440342338]
本稿では,データプライバシ保護下でのテキスト非パラメトリック需要モデルを用いた動的パーソナライズ価格問題について検討する。
データプライバシの2つの概念が実践に広く適用されている。
提案手法は,CDP と LDP をそれぞれ満たし,価格決定と未知の要求を即時に学習するアルゴリズムである。
論文 参考訳(メタデータ) (2021-09-10T01:56:55Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。