論文の概要: CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing
- arxiv url: http://arxiv.org/abs/2106.09292v1
- Date: Thu, 17 Jun 2021 07:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:45:54.212211
- Title: CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing
- Title(参考訳): CROP:機能的平滑化による強化学習のためのロバストポリシの認定
- Authors: Fan Wu, Linyi Li, Zijian Huang, Yevgeniy Vorobeychik, Ding Zhao, Bo Li
- Abstract要約: 本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
- 参考スコア(独自算出の注目度): 41.093241772796475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first framework of Certifying Robust Policies for
reinforcement learning (CROP) against adversarial state perturbations. We
propose two particular types of robustness certification criteria: robustness
of per-state actions and lower bound of cumulative rewards. Specifically, we
develop a local smoothing algorithm which uses a policy derived from
Q-functions smoothed with Gaussian noise over each encountered state to
guarantee the robustness of actions taken along this trajectory. Next, we
develop a global smoothing algorithm for certifying the robustness of a
finite-horizon cumulative reward under adversarial state perturbations.
Finally, we propose a local smoothing approach which makes use of adaptive
search in order to obtain tight certification bounds for reward. We use the
proposed RL robustness certification framework to evaluate six methods that
have previously been shown to yield empirically robust RL, including
adversarial training and several forms of regularization, on two representative
Atari games. We show that RegPGD, RegCVX, and RadialRL achieve high certified
robustness among these. Furthermore, we demonstrate that our certifications are
often tight by evaluating these algorithms against adversarial attacks.
- Abstract(参考訳): 本稿では,強化学習(crop)のための強固な政策を,逆境状態の摂動に対して証明する最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
具体的には,ガウスノイズを伴って滑らかなQ-関数から導かれるポリシーを各状態に対して適用し,この軌道に沿った動作のロバスト性を保証する局所平滑化アルゴリズムを開発した。
次に, 対向状態摂動下での有限水平累積報酬の堅牢性を証明するための大域的平滑化アルゴリズムを開発した。
最後に,適応探索を用いた局所的平滑化手法を提案する。
提案したRLロバスト性認証フレームワークを用いて,2つの代表的なアタリゲームにおいて,対戦型トレーニングや数種類の正規化を含む経験的ロバストなRLが得られる6つの手法を評価する。
以上の結果から,RegPGD,RegCVX,RadialRLは高い信頼性を示す。
さらに,これらのアルゴリズムを敵の攻撃に対して評価することで,認証の厳密さを実証する。
関連論文リスト
- Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks [23.907977144668838]
本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-28T22:33:38Z) - COPA: Certifying Robust Policies for Offline Reinforcement Learning
against Poisoning Attacks [49.15885037760725]
本研究は, 中毒発生時におけるオフライン強化学習(RL)の堅牢性を検証することに注力する。
本報告では, 許容可能な毒素トラジェクトリの数を認証する最初の認証フレームワークであるCOPAを提案する。
提案手法のいくつかは理論的に厳密であり,一部はNP-Complete問題であることを示す。
論文 参考訳(メタデータ) (2022-03-16T05:02:47Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Certified Distributional Robustness on Smoothed Classifiers [27.006844966157317]
本稿では,ロバスト性証明として,入力分布に対する最悪の逆損失を提案する。
双対性と滑らか性を利用して、証明書のサロゲートとして容易に計算できる上限を与える。
論文 参考訳(メタデータ) (2020-10-21T13:22:25Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。