論文の概要: Differentially Private Policy Gradient
- arxiv url: http://arxiv.org/abs/2501.19080v1
- Date: Fri, 31 Jan 2025 12:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:16.915778
- Title: Differentially Private Policy Gradient
- Title(参考訳): 異なる私的政策のグラディエント
- Authors: Alexandre Rio, Merwan Barlier, Igor Colin,
- Abstract要約: 本研究では,プライバシノイズと信頼領域サイズとの間の適切なトレードオフを見出すことができ,性能的にプライベートなポリシー勾配アルゴリズムが得られることを示す。
この結果と課題の複雑さは,オンラインRLにおける既存のDPアルゴリズムよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 48.748194765816955
- License:
- Abstract: Motivated by the increasing deployment of reinforcement learning in the real world, involving a large consumption of personal data, we introduce a differentially private (DP) policy gradient algorithm. We show that, in this setting, the introduction of Differential Privacy can be reduced to the computation of appropriate trust regions, thus avoiding the sacrifice of theoretical properties of the DP-less methods. Therefore, we show that it is possible to find the right trade-off between privacy noise and trust-region size to obtain a performant differentially private policy gradient algorithm. We then outline its performance empirically on various benchmarks. Our results and the complexity of the tasks addressed represent a significant improvement over existing DP algorithms in online RL.
- Abstract(参考訳): 個人データの大量消費を伴う実世界での強化学習の展開が進む中で,我々は,差分プライベート(DP)政策勾配アルゴリズムを導入する。
この設定では、微分プライバシーの導入を適切な信頼領域の計算に還元することができ、DPレス手法の理論的特性の犠牲を避けることができる。
そこで本稿では,プライバシノイズと信頼領域サイズとの間の適切なトレードオフを見出すことにより,性能的にプライベートなポリシー勾配を求めるアルゴリズムを提案する。
次に、さまざまなベンチマークでそのパフォーマンスを実証的に概説する。
この結果と課題の複雑さは,オンラインRLにおける既存のDPアルゴリズムよりも大幅に改善されている。
関連論文リスト
- Linear-Time User-Level DP-SCO via Robust Statistics [55.350093142673316]
ユーザレベルの差分プライベート凸最適化(DP-SCO)は、マシンラーニングアプリケーションにおけるユーザのプライバシ保護の重要性から、大きな注目を集めている。
微分プライベート勾配勾配(DP-SGD)に基づくような現在の手法は、しばしば高雑音蓄積と準最適利用に苦しむ。
これらの課題を克服するために、ロバストな統計、特に中央値とトリミング平均を利用する新しい線形時間アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-13T02:05:45Z) - The Cost of Shuffling in Private Gradient Based Optimization [40.31928071333575]
その結果, DP-ShuffleGはDP-SGDと比較して, データのシャッフル処理により過大なリスクが生じることがわかった。
我々は、プライベートな最適化に公開データサンプルを統合するハイブリッドアプローチである textitInterleaved-ShuffleG を提案する。
論文 参考訳(メタデータ) (2025-02-05T22:30:00Z) - Distributed, communication-efficient, and differentially private estimation of KL divergence [15.294136011320433]
分散された機密性の高いデータを管理する上で重要なタスクは、分散の変化の度合いを測定することである。
差分プライバシの下で,計算のフェデレーションモデル間でのKL分散を推定するための新しいアルゴリズムアプローチについて述べる。
論文 参考訳(メタデータ) (2024-11-25T15:20:40Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Private Domain Adaptation from a Public Source [48.83724068578305]
我々は、公開ラベル付きデータを持つソースドメインから、未ラベル付きプライベートデータを持つターゲットドメインへの適応のための差分プライベート離散性に基づくアルゴリズムを設計する。
我々の解は、Frank-WolfeとMirror-Descentアルゴリズムのプライベートな変種に基づいている。
論文 参考訳(メタデータ) (2022-08-12T06:52:55Z) - Adaptive Differentially Private Empirical Risk Minimization [95.04948014513226]
本稿では,適応的(確率的)勾配摂動法を提案する。
ADP法は,バニラランダムノイズを付加した標準微分プライベート法と比較して,実用性保証を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-10-14T15:02:20Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Differentially Private Representation for NLP: Formal Guarantee and An
Empirical Study on Privacy and Fairness [38.90014773292902]
深層モデルで学習した隠れ表現が、入力のプライベート情報を符号化できることが示されている。
テキストから抽出した表現のプライバシを保護するために,DPNR(differially Private Neural Representation)を提案する。
論文 参考訳(メタデータ) (2020-10-03T05:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。