論文の概要: Differentially Private Temporal Difference Learning with Stochastic
Nonconvex-Strongly-Concave Optimization
- arxiv url: http://arxiv.org/abs/2201.10447v1
- Date: Tue, 25 Jan 2022 16:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 19:46:06.698731
- Title: Differentially Private Temporal Difference Learning with Stochastic
Nonconvex-Strongly-Concave Optimization
- Title(参考訳): 確率的非凸強凸最適化による微分プライベート時間差学習
- Authors: Canzhe Zhao, Yanjie Ze, Jing Dong, Baoxiang Wang, Shuai Li
- Abstract要約: 時間差(TD)学習は、強化学習における政策を評価するために広く用いられている手法である。
本稿では,非線形値関数を用いたTD学習におけるプライバシ保護について考察する。
DPTDは、トランジションに符号化された機密情報に対して$epsilon,n-differential privacy (DP) を保証し、TD学習の本来のパワーを維持できることを示す。
- 参考スコア(独自算出の注目度): 17.361143427007224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal difference (TD) learning is a widely used method to evaluate
policies in reinforcement learning. While many TD learning methods have been
developed in recent years, little attention has been paid to preserving privacy
and most of the existing approaches might face the concerns of data privacy
from users. To enable complex representative abilities of policies, in this
paper, we consider preserving privacy in TD learning with nonlinear value
function approximation. This is challenging because such a nonlinear problem is
usually studied in the formulation of stochastic nonconvex-strongly-concave
optimization to gain finite-sample analysis, which would require simultaneously
preserving the privacy on primal and dual sides. To this end, we employ a
momentum-based stochastic gradient descent ascent to achieve a single-timescale
algorithm, and achieve a good trade-off between meaningful privacy and utility
guarantees of both the primal and dual sides by perturbing the gradients on
both sides using well-calibrated Gaussian noises. As a result, our DPTD
algorithm could provide $(\epsilon,\delta)$-differential privacy (DP) guarantee
for the sensitive information encoded in transitions and retain the original
power of TD learning, with the utility upper bounded by
$\widetilde{\mathcal{O}}(\frac{(d\log(1/\delta))^{1/8}}{(n\epsilon)^{1/4}})$
(The tilde in this paper hides the log factor.), where $n$ is the trajectory
length and $d$ is the dimension. Extensive experiments conducted in OpenAI Gym
show the advantages of our proposed algorithm.
- Abstract(参考訳): 時間差学習 (td learning) は強化学習における方針を評価するために広く用いられる方法である。
近年、多くのTD学習手法が開発されているが、プライバシ保護にはほとんど注意が払われておらず、既存のアプローチのほとんどは、ユーザのデータプライバシの懸念に直面する可能性がある。
本稿では、ポリシーの複雑な代表能力を実現するために、非線形値関数近似を用いたTD学習におけるプライバシー保護を検討する。
このような非線形問題は、通常、有限サンプル解析を得るために確率的非凸-強凸-凹最適化の定式化において研究されるため、原始側と双対側のプライバシーを同時に保存する必要がある。
そこで本研究では,単時間スケールアルゴリズムを実現するために運動量に基づく確率的勾配降下法を用いて,ガウス雑音を用いて両側の勾配を摂動させることで,有意義なプライバシと,プライマリ側とデュアル側の両方の有用性保証との間の良好なトレードオフを実現する。
その結果、我々のDPTDアルゴリズムは、トランジションに符号化された機密情報に対して$(\epsilon,\delta)$-differential privacy (DP) を保証し、TDラーニングの本来のパワーを保ち、ユーティリティ上限は$\widetilde{\mathcal{O}}(\frac{(d\log(1/\delta))^{1/8}}{(n\epsilon)^{1/4}})$(この論文のチルドはログファクターを隠蔽する)で、$n$はトラジェクトリ長であり、$d$は次元である。
OpenAI Gymで行った大規模な実験は、提案アルゴリズムの利点を示している。
関連論文リスト
- Privacy for Free in the Over-Parameterized Regime [19.261178173399784]
ディファレンシャル・プライベート勾配降下(DP-GD)は、トレーニングデータのプライバシを保証してディープラーニングモデルをトレーニングする一般的なアルゴリズムである。
本研究では,2次損失を持つ一般的なランダム特徴モデルにおいて,十分大きな$p$に対して,プライバシが無償で取得可能であること,すなわち$left|R_P right| = o(1)$,プライバシパラメータ$varepsilon$が一定の順序を持つ場合に限らず,強いプライベート設定$varepsilon = o(1)$ が得られることを示す。
論文 参考訳(メタデータ) (2024-10-18T18:01:11Z) - Directional Privacy for Deep Learning [2.826489388853448]
Differentially Private Gradient Descent (DP-SGD)は、ディープラーニングモデルのトレーニングにプライバシーを適用するための重要な方法である。
しかし、メトリックDPは、ユーティリティの保存にもっと適した任意のメトリクスに基づいた代替メカニズムを提供することができる。
これは、ガウスのメカニズムの$(epsilon, delta)$-privacyではなく、ディープラーニングのトレーニングに$epsilon$-DPと$epsilon d$-privacyを提供することを示している。
論文 参考訳(メタデータ) (2022-11-09T05:18:08Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - On Private Online Convex Optimization: Optimal Algorithms in
$\ell_p$-Geometry and High Dimensional Contextual Bandits [9.798304879986604]
本研究では,分散分布からサンプリングしたストリーミングデータを用いてDPの凸最適化問題について検討し,逐次到着する。
また、プライベート情報に関連するパラメータを更新し、新しいデータ(しばしばオンラインアルゴリズム)に基づいてリリースする連続リリースモデルについても検討する。
提案アルゴリズムは,1pleq 2$のときの最適余剰リスクと,2pleqinfty$のときの非プライベートな場合の最先端の余剰リスクを線形時間で達成する。
論文 参考訳(メタデータ) (2022-06-16T12:09:47Z) - Differentially Private Federated Learning via Inexact ADMM [0.0]
差分プライバシー(DP)技術は、データプライバシを推論攻撃から保護するために、フェデレーション付き学習モデルに適用することができる。
我々は,信頼領域のサブプロブレム列を解く乗算器アルゴリズムのDP不正確な交互方向法を開発した。
提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも22%削減すると同時に,データプライバシのレベルも同等に向上する。
論文 参考訳(メタデータ) (2021-06-11T02:28:07Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy
Amplification by Shuffling [49.43288037509783]
ランダムシャッフルは、局所的ランダム化データの差分プライバシー保証を増幅する。
私たちの結果は、以前の作業よりも単純で、ほぼ同じ保証で差分プライバシーに拡張された新しいアプローチに基づいています。
論文 参考訳(メタデータ) (2020-12-23T17:07:26Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。