論文の概要: Privacy-Constrained Policies via Mutual Information Regularized Policy
Gradients
- arxiv url: http://arxiv.org/abs/2012.15019v2
- Date: Sat, 2 Jan 2021 03:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 18:12:53.048293
- Title: Privacy-Constrained Policies via Mutual Information Regularized Policy
Gradients
- Title(参考訳): 相互情報正規化政策勾配によるプライバシー保護政策
- Authors: Chris Cundy, Stefano Ermon
- Abstract要約: 報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。
この設定は、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーするかを例に示します。
実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。
- 参考スコア(独自算出の注目度): 93.65993173260318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As reinforcement learning techniques are increasingly applied to real-world
decision problems, attention has turned to how these algorithms use potentially
sensitive information. We consider the task of training a policy that maximizes
reward while minimizing disclosure of certain sensitive state variables through
the actions. We give examples of how this setting covers real-world problems in
privacy for sequential decision-making. We solve this problem in the policy
gradients framework by introducing a regularizer based on the mutual
information (MI) between the sensitive state and the actions at a given
timestep. We develop a model-based stochastic gradient estimator for
optimization of privacy-constrained policies. We also discuss an alternative MI
regularizer that serves as an upper bound to our main MI regularizer and can be
optimized in a model-free setting. We contrast previous work in
differentially-private RL to our mutual-information formulation of information
disclosure. Experimental results show that our training method results in
policies which hide the sensitive state.
- Abstract(参考訳): 実世界の意思決定問題に強化学習技術がますます適用されるにつれて、これらのアルゴリズムが潜在的に敏感な情報を使用する方法に注意が向けられている。
報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。
この設定が、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーしているかの例を示す。
政策グラデーションの枠組みでは、ある時点におけるセンシティブな状態と行動の間の相互情報(MI)に基づいて正規化器を導入することで、この問題を解決する。
プライバシー制約ポリシーの最適化のためのモデルベース確率勾配推定器を開発した。
また、主要なMI正則化器の上限として機能し、モデルフリー設定で最適化できる代替MI正則化器についても論じる。
我々は、情報開示の相互情報定式化と、従来の微分プライベートなRLにおける研究を対比する。
実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-17T23:44:13Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Decoupling Value and Policy for Generalization in Reinforcement Learning [20.08992844616678]
我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
論文 参考訳(メタデータ) (2021-02-20T12:40:11Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。