論文の概要: Differentially Private Regret Minimization in Episodic Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2112.10599v1
- Date: Mon, 20 Dec 2021 15:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 21:09:28.396536
- Title: Differentially Private Regret Minimization in Episodic Markov Decision
Processes
- Title(参考訳): エピソードマルコフ決定過程における差分プライベートレグレレット最小化
- Authors: Sayak Ray Chowdhury, Xingyu Zhou
- Abstract要約: 差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
- 参考スコア(独自算出の注目度): 6.396288020763144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study regret minimization in finite horizon tabular Markov decision
processes (MDPs) under the constraints of differential privacy (DP). This is
motivated by the widespread applications of reinforcement learning (RL) in
real-world sequential decision making problems, where protecting users'
sensitive and private information is becoming paramount. We consider two
variants of DP -- joint DP (JDP), where a centralized agent is responsible for
protecting users' sensitive data and local DP (LDP), where information needs to
be protected directly on the user side. We first propose two general frameworks
-- one for policy optimization and another for value iteration -- for designing
private, optimistic RL algorithms. We then instantiate these frameworks with
suitable privacy mechanisms to satisfy JDP and LDP requirements, and
simultaneously obtain sublinear regret guarantees. The regret bounds show that
under JDP, the cost of privacy is only a lower order additive term, while for a
stronger privacy protection under LDP, the cost suffered is multiplicative.
Finally, the regret bounds are obtained by a unified analysis, which, we
believe, can be extended beyond tabular MDPs.
- Abstract(参考訳): 差分プライバシー (DP) の制約の下で, 有限地平線タブ状マルコフ決定過程 (MDP) における後悔の最小化について検討した。
これは実世界のシーケンシャルな意思決定問題における強化学習(RL)の普及による動機付けであり、ユーザの機密情報や個人情報の保護が最重要になっている。
本稿では,DPの2つの変種について考察する。JDPとは,ユーザの機密データを保護する集中型エージェントと,ユーザ側で情報を直接保護する必要があるローカルDP(LDP)である。まず,ポリシ最適化のためのフレームワークと,価値反復のためのフレームワークである2つのフレームワークを提案して,楽観的なRLアルゴリズムを設計する。
そして、これらのフレームワークを適切なプライバシーメカニズムでインスタンス化し、JDPおよびLDP要件を満たし、同時にサブ線形後悔保証を得る。
残念なことに、JDPでは、プライバシのコストは低次の追加的な用語に過ぎず、LDPではより強力なプライバシ保護のために、被るコストは乗法的である。
最後に、後悔の限界は統一分析によって得られ、我々は、テーブル型mdpを超えて拡張できると信じている。
関連論文リスト
- Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Differentially Private Episodic Reinforcement Learning with Heavy-tailed
Rewards [12.809396600279479]
差分プライバシ(DP)制約下での重み付き報酬を伴うマルコフ決定プロセス(MDP)の問題について検討する。
報酬に対するロバストな平均推定器を利用することで、まず重み付きMDPのための2つのフレームワークを提案する。
我々は,自家用RLとガウシアン以下のRLと,重み付き報酬とに根本的な相違があることを指摘した。
論文 参考訳(メタデータ) (2023-06-01T20:18:39Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - Breaking the Communication-Privacy-Accuracy Tradeoff with
$f$-Differential Privacy [51.11280118806893]
サーバが複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整する,フェデレートされたデータ分析問題を考える。
有限出力空間を有する離散値機構の局所的差分プライバシー保証を$f$-differential privacy (DP) レンズを用いて検討する。
より具体的には、様々な離散的評価機構の厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。
論文 参考訳(メタデータ) (2023-02-19T16:58:53Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - Smoothed Differential Privacy [55.415581832037084]
微分プライバシー(DP)は、最悪のケース分析に基づいて広く受け入れられ、広く適用されているプライバシーの概念である。
本稿では, 祝賀されたスムーズな解析の背景にある最悪の平均ケースのアイデアに倣って, DPの自然な拡張を提案する。
サンプリング手順による離散的なメカニズムはDPが予測するよりもプライベートであるのに対して,サンプリング手順による連続的なメカニズムはスムーズなDP下では依然としてプライベートではないことが証明された。
論文 参考訳(メタデータ) (2021-07-04T06:55:45Z) - Generalized Linear Bandits with Local Differential Privacy [4.922800530841394]
パーソナライズドメディカルやオンライン広告などの多くのアプリケーションは、効果的な学習のために個人固有の情報を活用する必要がある。
これは、局所微分プライバシー(LDP)というプライバシーの厳格な概念を文脈的盗賊に導入する動機となっている。
本稿では,一般線形バンドレットに対するLDPアルゴリズムを設計し,非プライバシ設定と同じ後悔点を実現する。
論文 参考訳(メタデータ) (2021-06-07T06:42:00Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。