論文の概要: How Private Is Your RL Policy? An Inverse RL Based Analysis Framework
- arxiv url: http://arxiv.org/abs/2112.05495v1
- Date: Fri, 10 Dec 2021 12:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 19:43:08.201265
- Title: How Private Is Your RL Policy? An Inverse RL Based Analysis Framework
- Title(参考訳): あなたのRLポリシーはどの程度プライベートか?
逆rlに基づく解析フレームワーク
- Authors: Kritika Prakash, Fiza Husain, Praveen Paruchuri, Sujit P. Gujar
- Abstract要約: 自動運転やレコメンデーションシステムといったドメインでは、ポリシーがプライベートな報酬の一部を記憶している場合、最適なRLポリシーがプライバシー侵害を引き起こす可能性がある。
本稿では、値反復、ディープQネットワーク、Vanilla Proximal Policy Optimizationなどの様々なRLアルゴリズムから導かれる、既存の微分プライベートなRLポリシーの集合について検討する。
本稿では,プライバシ・アウェア・インバースRL(PRIL)分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.987377024199901
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement Learning (RL) enables agents to learn how to perform various
tasks from scratch. In domains like autonomous driving, recommendation systems,
and more, optimal RL policies learned could cause a privacy breach if the
policies memorize any part of the private reward. We study the set of existing
differentially-private RL policies derived from various RL algorithms such as
Value Iteration, Deep Q Networks, and Vanilla Proximal Policy Optimization. We
propose a new Privacy-Aware Inverse RL (PRIL) analysis framework, that performs
reward reconstruction as an adversarial attack on private policies that the
agents may deploy. For this, we introduce the reward reconstruction attack,
wherein we seek to reconstruct the original reward from a privacy-preserving
policy using an Inverse RL algorithm. An adversary must do poorly at
reconstructing the original reward function if the agent uses a tightly private
policy. Using this framework, we empirically test the effectiveness of the
privacy guarantee offered by the private algorithms on multiple instances of
the FrozenLake domain of varying complexities. Based on the analysis performed,
we infer a gap between the current standard of privacy offered and the standard
of privacy needed to protect reward functions in RL. We do so by quantifying
the extent to which each private policy protects the reward function by
measuring distances between the original and reconstructed rewards.
- Abstract(参考訳): 強化学習(RL)により、エージェントはスクラッチから様々なタスクを実行する方法を学ぶことができる。
自動運転やレコメンデーションシステムといったドメインでは、学習した最適なRLポリシーは、ポリシーが個人の報酬の一部を記憶している場合、プライバシー侵害を引き起こす可能性がある。
本稿では、値反復、ディープQネットワーク、Vanilla Proximal Policy Optimizationなどの様々なRLアルゴリズムから導かれる既存の微分プライベートなRLポリシーの集合について検討する。
本稿では,プライバシを意識した新しい逆rl(pril)分析フレームワークを提案する。
そこで本研究では,逆rlアルゴリズムを用いて,プライバシ保護ポリシーから元の報酬を再構成することを目的とした報酬再構成攻撃を提案する。
エージェントが厳密な私的ポリシーを使用する場合、相手は元の報酬関数の再構築をうまく行わなければならない。
このフレームワークを用いて、様々な複雑さを持つFrozenLakeドメインの複数のインスタンス上で、プライベートアルゴリズムによって提供されるプライバシー保証の有効性を実証的に検証する。
実施した分析に基づいて,現在のプライバシ標準と,rlの報酬機能を保護するために必要なプライバシ標準とのギャップを推定する。
我々は,各個人政策が報酬機能を保護する程度を,オリジナルと再構築報酬の距離を計測することにより定量化する。
関連論文リスト
- Preserving Expert-Level Privacy in Offline Reinforcement Learning [35.486119057117996]
本稿では,既存のオフラインRLアルゴリズムと互換性のある,コンセンサスに基づく専門家レベルの個別オフラインRLトレーニング手法を提案する。
我々は、強い経験的性能を維持しながら、厳密な差分プライバシー保証を証明している。
論文 参考訳(メタデータ) (2024-11-18T21:26:53Z) - Differentially Private Reinforcement Learning with Self-Play [18.124829682487558]
差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。
まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。
我々は、楽観的なナッシュ値とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-11T08:42:51Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - Reinforcement Learning [36.664136621546575]
強化学習(Reinforcement Learning, RL)は適応制御のための一般的なフレームワークであり、多くの領域で効率的であることが証明されている。
本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。
論文 参考訳(メタデータ) (2020-05-29T06:53:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。