論文の概要: Policy Resilience to Environment Poisoning Attacks on Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2304.12151v1
- Date: Mon, 24 Apr 2023 15:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:33:47.744450
- Title: Policy Resilience to Environment Poisoning Attacks on Reinforcement
Learning
- Title(参考訳): 強化学習における環境中毒攻撃に対する政策レジリエンス
- Authors: Hang Xu, Xinghua Qu, Zinovi Rabinovich
- Abstract要約: 本稿では、強化学習(RL)政策に対する訓練環境汚染攻撃に対する政策レジリエンスについて検討する。
本稿では,知識共有の考え方に基づく政策レジリエンス機構を提案する。
- 参考スコア(独自算出の注目度): 15.949831252810704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates policy resilience to training-environment poisoning
attacks on reinforcement learning (RL) policies, with the goal of recovering
the deployment performance of a poisoned RL policy. Due to the fact that the
policy resilience is an add-on concern to RL algorithms, it should be
resource-efficient, time-conserving, and widely applicable without compromising
the performance of RL algorithms. This paper proposes such a policy-resilience
mechanism based on an idea of knowledge sharing. We summarize the policy
resilience as three stages: preparation, diagnosis, recovery. Specifically, we
design the mechanism as a federated architecture coupled with a meta-learning
manner, pursuing an efficient extraction and sharing of the environment
knowledge. With the shared knowledge, a poisoned agent can quickly identify the
deployment condition and accordingly recover its policy performance. We
empirically evaluate the resilience mechanism for both model-based and
model-free RL algorithms, showing its effectiveness and efficiency in restoring
the deployment performance of a poisoned policy.
- Abstract(参考訳): 本稿では,RL政策の展開性能を回復させることを目的として,強化学習(RL)政策に対する訓練環境汚染攻撃に対する政策レジリエンスについて検討する。
ポリシーレジリエンスがRLアルゴリズムのアドバンテージであるという事実から、RLアルゴリズムの性能を損なうことなく、リソース効率、時間保存、広く適用できるべきである。
本稿では,知識共有の考え方に基づく政策レジリエンス機構を提案する。
政策のレジリエンスは, 準備, 診断, 回復の3段階にまとめる。
具体的には,この機構をメタラーニング手法と組み合わせたフェデレートアーキテクチャとして設計し,環境知識の効率的な抽出と共有を追求する。
共用知識により、有毒エージェントは、配置条件を迅速に識別し、ポリシー性能を回復することができる。
我々は,モデルベースおよびモデルフリーのrlアルゴリズムのレジリエンスメカニズムを実証的に評価し,有毒なポリシーの展開性能を回復する上での有効性と効率を示した。
関連論文リスト
- Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Joint Learning of Policy with Unknown Temporal Constraints for Safe
Reinforcement Learning [0.0]
安全制約と最適なRLポリシーを同時に学習するフレームワークを提案する。
この枠組みは、我々の共同学習プロセスの収束を確立する定理によって支えられている。
当社のフレームワークをグリッド環境で紹介し、許容される安全性制約とRLポリシーの両方をうまく識別した。
論文 参考訳(メタデータ) (2023-04-30T21:15:07Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。