論文の概要: Mitigation of Adversarial Policy Imitation via Constrained Randomization
of Policy (CRoP)
- arxiv url: http://arxiv.org/abs/2109.14678v1
- Date: Wed, 29 Sep 2021 19:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-02 09:25:49.067531
- Title: Mitigation of Adversarial Policy Imitation via Constrained Randomization
of Policy (CRoP)
- Title(参考訳): 制約付き政策ランダム化(CRoP)による敵対的政策模倣の緩和
- Authors: Nancirose Piazza, Vahid Behzadan
- Abstract要約: 本稿では、不正な複製攻撃に対する緩和手法として、制約付きポリシーのランダム化(CRoP)を提案する。
CRoPのパラメトリック解析を行い、CRoPの最適性に対処し、敵の予算と損失予測に理論的境界を確立する。
- 参考スコア(独自算出の注目度): 10.736626320566707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) policies are vulnerable to unauthorized
replication attacks, where an adversary exploits imitation learning to
reproduce target policies from observed behavior. In this paper, we propose
Constrained Randomization of Policy (CRoP) as a mitigation technique against
such attacks. CRoP induces the execution of sub-optimal actions at random under
performance loss constraints. We present a parametric analysis of CRoP, address
the optimality of CRoP, and establish theoretical bounds on the adversarial
budget and the expectation of loss. Furthermore, we report the experimental
evaluation of CRoP in Atari environments under adversarial imitation, which
demonstrate the efficacy and feasibility of our proposed method against policy
replication attacks.
- Abstract(参考訳): 深層強化学習(DRL)ポリシーは、敵が模倣学習を利用して観測された行動からターゲットポリシーを再現する不正な複製攻撃に対して脆弱である。
本稿では,このような攻撃に対する緩和手法として,制約付き政策ランダム化(CRoP)を提案する。
CRoPは、性能損失制約下でのランダムな最適動作の実行を誘導する。
CRoPのパラメトリック解析を行い、CRoPの最適性に対処し、敵の予算と損失予測に理論的境界を確立する。
さらに,アタリ環境下でのCRoPの評価実験を行い,政策複製攻撃に対する提案手法の有効性と有効性を示した。
関連論文リスト
- Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Policy Resilience to Environment Poisoning Attacks on Reinforcement
Learning [15.949831252810704]
本稿では、強化学習(RL)政策に対する訓練環境汚染攻撃に対する政策レジリエンスについて検討する。
本稿では,知識共有の考え方に基づく政策レジリエンス機構を提案する。
論文 参考訳(メタデータ) (2023-04-24T15:01:55Z) - Distributional Method for Risk Averse Reinforcement Learning [0.0]
リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-02-27T19:48:42Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Targeted Adversarial Attacks on Deep Reinforcement Learning Policies via
Model Checking [3.5884936187733394]
本稿では,時間論理特性に対する敵攻撃の正確な影響を測定する指標を提案する。
また、敵攻撃に対するRLポリシーの堅牢性を検証するためのモデル検査手法も導入する。
論文 参考訳(メタデータ) (2022-12-10T17:13:10Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。