論文の概要: Differentially Private Episodic Reinforcement Learning with Heavy-tailed
Rewards
- arxiv url: http://arxiv.org/abs/2306.01121v2
- Date: Mon, 5 Jun 2023 13:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 11:12:23.029891
- Title: Differentially Private Episodic Reinforcement Learning with Heavy-tailed
Rewards
- Title(参考訳): 重み付きリワードを用いた個人用強調学習
- Authors: Yulian Wu, Xingyu Zhou, Sayak Ray Chowdhury and Di Wang
- Abstract要約: 差分プライバシ(DP)制約下での重み付き報酬を伴うマルコフ決定プロセス(MDP)の問題について検討する。
報酬に対するロバストな平均推定器を利用することで、まず重み付きMDPのための2つのフレームワークを提案する。
我々は,自家用RLとガウシアン以下のRLと,重み付き報酬とに根本的な相違があることを指摘した。
- 参考スコア(独自算出の注目度): 12.809396600279479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of (finite horizon tabular) Markov
decision processes (MDPs) with heavy-tailed rewards under the constraint of
differential privacy (DP). Compared with the previous studies for private
reinforcement learning that typically assume rewards are sampled from some
bounded or sub-Gaussian distributions to ensure DP, we consider the setting
where reward distributions have only finite $(1+v)$-th moments with some $v \in
(0,1]$. By resorting to robust mean estimators for rewards, we first propose
two frameworks for heavy-tailed MDPs, i.e., one is for value iteration and
another is for policy optimization. Under each framework, we consider both
joint differential privacy (JDP) and local differential privacy (LDP) models.
Based on our frameworks, we provide regret upper bounds for both JDP and LDP
cases and show that the moment of distribution and privacy budget both have
significant impacts on regrets. Finally, we establish a lower bound of regret
minimization for heavy-tailed MDPs in JDP model by reducing it to the
instance-independent lower bound of heavy-tailed multi-armed bandits in DP
model. We also show the lower bound for the problem in LDP by adopting some
private minimax methods. Our results reveal that there are fundamental
differences between the problem of private RL with sub-Gaussian and that with
heavy-tailed rewards.
- Abstract(参考訳): 本稿では,差分プライバシ(DP)の制約の下で,重み付き報酬を伴う(有限地平線表型)マルコフ決定プロセス(MDP)の問題について検討する。
DPを確保するために、通常、報酬を仮定する私的強化学習の以前の研究と比較すると、報酬分布が有限の$(1+v)$-第モーメントと約$v \in (0,1]$を持つ設定を考える。
報酬に対するロバスト平均推定器を利用することで、まず重み付きMDPのための2つのフレームワーク、すなわち価値反復のためのフレームワークとポリシー最適化のためのフレームワークを提案する。
各フレームワークでは,共同微分プライバシ(JDP)モデルと局所微分プライバシ(LDP)モデルの両方を検討する。
当社の枠組みに基づいて,JDP と LDP の双方のケースに対して,残念な上限を設け,配布時期とプライバシ予算の両方が後悔に重大な影響を及ぼすことを示す。
最後に,JDPモデルにおける重装マルチアームバンディットのインスタンス非依存な下限に減らして,重装マルチアームバンディットに対する最小限の最小限の最小化を実現する。
また,いくつかのプライベート minimax メソッドを採用することで,ldp の問題に対する下限を示す。
その結果,サブガウシアンによるプライベートrl問題と,重み付き報酬問題との間には,根本的な違いがあることが判明した。
関連論文リスト
- Fixed-Budget Differentially Private Best Arm Identification [62.36929749450298]
差分プライバシー制約下における固定予算制度における線形包帯のベストアーム識別(BAI)について検討した。
誤差確率に基づいてミニマックス下限を導出し、下限と上限が指数関数的に$T$で崩壊することを示した。
論文 参考訳(メタデータ) (2024-01-17T09:23:25Z) - Connect the Dots: Tighter Discrete Approximations of Privacy Loss
Distributions [49.726408540784334]
PLDベースの会計の鍵となる問題は、特定の個別サポートに対してPLDと(潜在的に連続的な)PLDをどのように近似するかである。
悲観的推定はすべての悲観的推定の中で最良であることを示す。
論文 参考訳(メタデータ) (2022-07-10T04:25:02Z) - Differentially Private Regret Minimization in Episodic Markov Decision
Processes [6.396288020763144]
差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
論文 参考訳(メタデータ) (2021-12-20T15:12:23Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Optimal Rates of (Locally) Differentially Private Heavy-tailed
Multi-Armed Bandits [11.419534203345187]
本稿では,DP/LDPモデルにおけるマルチアームバンディット(MAB)の問題について検討する。
本稿では,SEアルゴリズムの局所的プライベートかつロバストなバージョンとみなすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-04T16:17:21Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z) - Three Variants of Differential Privacy: Lossless Conversion and
Applications [13.057076084452016]
本稿では,3種類の差分プライバシー(DP),すなわち近似DP,R'enyi RDP,仮説テストについて考察する。
まず, 2 つの$f$-divergences の結合範囲に基づいて, DP と反復を関連付ける機械を開発する。
アプリケーションとして、ノイズ勾配勾配のプライバシー保証を特徴付けるモーメントフレームワークに適用する。
論文 参考訳(メタデータ) (2020-08-14T18:23:50Z) - Locally Differentially Private (Contextual) Bandits Learning [55.63825598391525]
本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T04:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。