論文の概要: Differentially Private Reinforcement Learning with Linear Function
Approximation
- arxiv url: http://arxiv.org/abs/2201.07052v1
- Date: Tue, 18 Jan 2022 15:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 21:01:57.240969
- Title: Differentially Private Reinforcement Learning with Linear Function
Approximation
- Title(参考訳): 線形関数近似を用いた微分プライベート強化学習
- Authors: Xingyu Zhou
- Abstract要約: 差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the wide adoption of reinforcement learning (RL) in real-world
personalized services, where users' sensitive and private information needs to
be protected, we study regret minimization in finite-horizon Markov decision
processes (MDPs) under the constraints of differential privacy (DP). Compared
to existing private RL algorithms that work only on tabular finite-state,
finite-actions MDPs, we take the first step towards privacy-preserving learning
in MDPs with large state and action spaces. Specifically, we consider MDPs with
linear function approximation (in particular linear mixture MDPs) under the
notion of joint differential privacy (JDP), where the RL agent is responsible
for protecting users' sensitive data. We design two private RL algorithms that
are based on value iteration and policy optimization, respectively, and show
that they enjoy sub-linear regret performance while guaranteeing privacy
protection. Moreover, the regret bounds are independent of the number of
states, and scale at most logarithmically with the number of actions, making
the algorithms suitable for privacy protection in nowadays large-scale
personalized services. Our results are achieved via a general procedure for
learning in linear mixture MDPs under changing regularizers, which not only
generalizes previous results for non-private learning, but also serves as a
building block for general private reinforcement learning.
- Abstract(参考訳): 利用者の敏感でプライベートな情報を保護する必要がある実世界のパーソナライズされたサービスにおける強化学習(RL)の普及により,差分プライバシー(DP)の制約の下で,有限水平マルコフ決定プロセス(MDP)における後悔の最小化について検討した。
タブ状の有限状態有限動作MDPのみで動作する既存のプライベートRLアルゴリズムと比較して、大きな状態とアクション空間を持つMDPにおけるプライバシー保護学習への第一歩を踏み出す。
具体的には、RLエージェントがユーザの機密データを保護する責任を負うJDP(Joint differential Privacy)の概念の下で、線形関数近似(特に線形混合MDP)を持つMDPについて検討する。
価値反復とポリシー最適化に基づく2つのプライベートRLアルゴリズムを設計し、プライバシ保護を保証しつつ、サブ線形後悔性能を享受していることを示す。
さらに、後悔の限界は状態の数とは独立しており、ほとんどの場合、アクションの数と対数的にスケールするので、現代の大規模パーソナライズされたサービスにおいて、プライバシ保護に適したアルゴリズムとなる。
本研究は,非私的学習のための従来の結果を一般化するだけでなく,一般私的強化学習の基盤として機能する,線形混合mdpによる学習の一般的な手順によって達成される。
関連論文リスト
- Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Differentially Private Reinforcement Learning with Self-Play [18.124829682487558]
差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。
まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。
我々は、楽観的なナッシュ値とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-11T08:42:51Z) - Provable Privacy with Non-Private Pre-Processing [56.770023668379615]
非プライベートなデータ依存前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。
当社のフレームワークは,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。
論文 参考訳(メタデータ) (2024-03-19T17:54:49Z) - Differentially Private Deep Model-Based Reinforcement Learning [47.651861502104715]
形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムであるPriMORLを紹介する。
PriMORLはオフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
論文 参考訳(メタデータ) (2024-02-08T10:05:11Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Differentially Private Regret Minimization in Episodic Markov Decision
Processes [6.396288020763144]
差分プライバシー(DP)制約下における有限地平線表型マルコフ決定過程(MDP)の後悔について検討する。
これは、実世界の逐次意思決定問題における強化学習(RL)の広範な応用が動機となっている。
論文 参考訳(メタデータ) (2021-12-20T15:12:23Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。