論文の概要: Locally Differentially Private Reinforcement Learning for Linear Mixture
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2110.10133v1
- Date: Tue, 19 Oct 2021 17:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:53:33.438500
- Title: Locally Differentially Private Reinforcement Learning for Linear Mixture
Markov Decision Processes
- Title(参考訳): 線形混合マルコフ決定過程における局所的個人強化学習
- Authors: Chonghua Liao and Jiafan He and Quanquan Gu
- Abstract要約: 強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。
ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。
線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 78.27542864367821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms can be used to provide personalized
services, which rely on users' private and sensitive data. To protect the
users' privacy, privacy-preserving RL algorithms are in demand. In this paper,
we study RL with linear function approximation and local differential privacy
(LDP) guarantees. We propose a novel $(\varepsilon, \delta)$-LDP algorithm for
learning a class of Markov decision processes (MDPs) dubbed linear mixture
MDPs, and obtains an $\tilde{\mathcal{O}}(
d^{5/4}H^{7/4}T^{3/4}\left(\log(1/\delta)\right)^{1/4}\sqrt{1/\varepsilon})$
regret, where $d$ is the dimension of feature mapping, $H$ is the length of the
planning horizon, and $T$ is the number of interactions with the environment.
We also prove a lower bound
$\Omega(dH\sqrt{T}/\left(e^{\varepsilon}(e^{\varepsilon}-1)\right))$ for
learning linear mixture MDPs under $\varepsilon$-LDP constraint. Experiments on
synthetic datasets verify the effectiveness of our algorithm. To the best of
our knowledge, this is the first provable privacy-preserving RL algorithm with
linear function approximation.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用できる。
ユーザのプライバシを保護するために,プライバシ保存型rlアルゴリズムが求められている。
本稿では,線形関数近似と局所微分プライバシー(LDP)保証を用いたRLについて検討する。
線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学ぶための新しい$(\varepsilon, \delta)$-LDPアルゴリズムを提案し、$\tilde{\mathcal{O}}(d^{5/4}H^{7/4}T^{3/4}\left(\log(1/\delta)\right)^{1/4}\sqrt{1/\varepsilon})$ regret, ここで$d$は特徴マッピングの次元であり、$H$は計画的地平線の長さであり、$T$は環境との相互作用の数である。
また、$\Omega(dH\sqrt{T}/\left(e^{\varepsilon}(e^{\varepsilon}-1)\right)$を$\varepsilon$-LDP制約の下で線形混合MDPを学習するためにも証明する。
合成データセットの実験は、我々のアルゴリズムの有効性を検証する。
我々の知る限りでは、これは線形関数近似を用いた最初の証明可能なプライバシ保存RLアルゴリズムである。
関連論文リスト
- A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs [18.449996575976993]
無限水平割引設定における線形 MDP を用いたオフライン RL の原始双対アルゴリズムを提案する。
本アルゴリズムは, 部分的データカバレッジを仮定した$O(epsilon-2)$のサンプル複雑性を実現するアルゴリズムとして, この設定において, 計算効率のよい最初のアルゴリズムである。
我々はアルゴリズムをオフラインの制約付きRL設定で動作させ、追加の報酬信号に制約を課すように拡張する。
論文 参考訳(メタデータ) (2024-02-07T00:33:11Z) - Scaling Up Differentially Private LASSO Regularized Logistic Regression
via Faster Frank-Wolfe Iterations [51.14495595270775]
我々は,Frank-Wolfeアルゴリズムを$L_1$のペナル化線形回帰に適応させ,スパース入力を認識し,有効利用する。
この方法では,プライバシパラメータ$epsilon$の値とデータセットの分散度に応じて,最大2,200times$の係数でランタイムを削減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T19:52:43Z) - Sharper Model-free Reinforcement Learning for Average-reward Markov
Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。
シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文 参考訳(メタデータ) (2023-06-28T17:43:19Z) - Near-Optimal Differentially Private Reinforcement Learning [16.871660060209674]
差分プライバシー制約による強化学習におけるオンライン探索について検討する。
共同微分プライバシ(JDP)と局所微分プライバシ(LDP)の下では、非回帰学習が可能であることが確立されている。
我々は、情報理論上の非私的学習の下位境界に一致する$widetildeO(sqrtSAH2T+S2AH3/epsilon)$を後悔する$epsilon$-JDPアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-12-09T06:03:02Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - Logarithmic Regret for Reinforcement Learning with Linear Function
Approximation [99.59319332864129]
最近提案された2つの線形MDP仮定で対数的後悔が達成可能であることを示す。
我々の知る限り、これらは線型関数近似を持つRLに対する最初の対数的後悔境界である。
論文 参考訳(メタデータ) (2020-11-23T17:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。