論文の概要: Privacy Preserving Reinforcement Learning for Population Processes
- arxiv url: http://arxiv.org/abs/2406.17649v1
- Date: Tue, 25 Jun 2024 15:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:51:04.514276
- Title: Privacy Preserving Reinforcement Learning for Population Processes
- Title(参考訳): 人口プロセスのためのプライバシー保護強化学習
- Authors: Samuel Yang-Zhao, Kee Siong Ng,
- Abstract要約: 本稿では,人口プロセス上で動作する強化学習(RL)アルゴリズムにおけるプライバシ保護の問題について考察する。
個人のデータは複数のインタラクションにまたがって収集することができ、そのプライバシは常に保護されなければならない。
我々は,集団プロセスにおける個人的RLアルゴリズムに対して,適切なプライバシ・ユーティリティのトレードオフが可能であることを示す。
- 参考スコア(独自算出の注目度): 5.409704301731714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of privacy protection in Reinforcement Learning (RL) algorithms that operate over population processes, a practical but understudied setting that includes, for example, the control of epidemics in large populations of dynamically interacting individuals. In this setting, the RL algorithm interacts with the population over $T$ time steps by receiving population-level statistics as state and performing actions which can affect the entire population at each time step. An individual's data can be collected across multiple interactions and their privacy must be protected at all times. We clarify the Bayesian semantics of Differential Privacy (DP) in the presence of correlated data in population processes through a Pufferfish Privacy analysis. We then give a meta algorithm that can take any RL algorithm as input and make it differentially private. This is achieved by taking an approach that uses DP mechanisms to privatize the state and reward signal at each time step before the RL algorithm receives them as input. Our main theoretical result shows that the value-function approximation error when applying standard RL algorithms directly to the privatized states shrinks quickly as the population size and privacy budget increase. This highlights that reasonable privacy-utility trade-offs are possible for differentially private RL algorithms in population processes. Our theoretical findings are validated by experiments performed on a simulated epidemic control problem over large population sizes.
- Abstract(参考訳): 本稿では, 集団プロセス上で動作する強化学習(RL)アルゴリズムにおけるプライバシ保護の問題について考察する。
この設定では、RLアルゴリズムは、人口レベル統計を状態として受信し、各時点における全人口に影響を与えるアクションを実行することで、T$タイムステップ以上の人口と相互作用する。
個人のデータは複数のインタラクションにまたがって収集することができ、そのプライバシは常に保護されなければならない。
本稿では,Pufferfish のプライバシ分析により,集団プロセスに相関するデータが存在する場合のベイズ的差分プライバシー(DP)のセマンティクスを明らかにする。
次に、任意のRLアルゴリズムを入力とし、それを微分プライベートにするメタアルゴリズムを提案する。
これは、DP機構を用いて、RLアルゴリズムがそれらを入力として受け取る前に、各タイミングで状態と報酬信号の民営化を行うアプローチをとることで達成される。
その結果,民営化状態に標準RLアルゴリズムを直接適用した場合の値関数近似誤差は,人口規模やプライバシー予算の増加とともに急速に減少することがわかった。
このことは、集団プロセスにおいて、異なるプライベートなRLアルゴリズムに対して、合理的なプライバシユーティリティトレードオフが可能であることを強調している。
本研究は,大集団を対象としたシミュレートされた疫病対策に関する実験により検証した。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Differentially Private Reinforcement Learning with Self-Play [18.124829682487558]
差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。
まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。
我々は、楽観的なナッシュ値とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-11T08:42:51Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。
人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文 参考訳(メタデータ) (2023-05-04T15:53:00Z) - Balancing Privacy and Performance for Private Federated Learning
Algorithms [4.681076651230371]
Federated Learning(FL)は、複数のクライアントがプライベートデータを公開せずにモデルをトレーニングする分散機械学習フレームワークである。
FLアルゴリズムは、共有前に各クライアントのモデル更新にノイズを導入する差分プライバシーメカニズムを頻繁に採用する。
ローカルステップの数と通信ラウンドの間に最適なバランスがあることを示し、プライバシー予算内での収束性能を最大化する。
論文 参考訳(メタデータ) (2023-04-11T10:42:11Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Graph-Homomorphic Perturbations for Private Decentralized Learning [64.26238893241322]
ローカルな見積もりの交換は、プライベートデータに基づくデータの推測を可能にする。
すべてのエージェントで独立して選択された摂動により、パフォーマンスが著しく低下する。
本稿では,特定のヌル空間条件に従って摂動を構成する代替スキームを提案する。
論文 参考訳(メタデータ) (2020-10-23T10:35:35Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。