論文の概要: Policy Smoothing for Provably Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.11420v1
- Date: Mon, 21 Jun 2021 21:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 05:32:14.869421
- Title: Policy Smoothing for Provably Robust Reinforcement Learning
- Title(参考訳): 強固な強化学習のためのポリシー平滑化
- Authors: Aounon Kumar, Alexander Levine and Soheil Feizi
- Abstract要約: 入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
- 参考スコア(独自算出の注目度): 109.90239627115336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study of provable adversarial robustness for deep neural network (DNN)
models has mainly focused on static supervised learning tasks such as image
classification. However, DNNs have been used extensively in real-world adaptive
tasks such as reinforcement learning (RL), making RL systems vulnerable to
adversarial attacks. The key challenge in adversarial RL is that the attacker
can adapt itself to the defense strategy used by the agent in previous
time-steps to strengthen its attack in future steps. In this work, we study the
provable robustness of RL against norm-bounded adversarial perturbations of the
inputs. We focus on smoothing-based provable defenses and propose policy
smoothing where the agent adds a Gaussian noise to its observation at each
time-step before applying the policy network to make itself less sensitive to
adversarial perturbations of its inputs. Our main theoretical contribution is
to prove an adaptive version of the Neyman-Pearson Lemma where the adversarial
perturbation at a particular time can be a stochastic function of current and
previous observations and states as well as previously observed actions. Using
this lemma, we adapt the robustness certificates produced by randomized
smoothing in the static setting of image classification to the dynamic setting
of RL. We generate certificates that guarantee that the total reward obtained
by the smoothed policy will not fall below a certain threshold under a
norm-bounded adversarial perturbation of the input. We show that our
certificates are tight by constructing a worst-case setting that achieves the
bounds derived in our analysis. In our experiments, we show that this method
can yield meaningful certificates in complex environments demonstrating its
effectiveness against adversarial attacks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルに対する証明可能な対角ロバスト性の研究は、主に画像分類などの静的教師付き学習タスクに焦点を当てている。
しかし、DNNは強化学習(RL)のような現実世界の適応的なタスクで広く使われており、RLシステムは敵の攻撃に対して脆弱である。
敵RLの鍵となる課題は、攻撃者が以前の時間ステップでエージェントが使用する防衛戦略に適応し、将来のステップで攻撃を強化することである。
本研究では、入力のノルム有界逆摂動に対するRLの証明可能な堅牢性について検討する。
我々は,スムージングに基づく証明可能な防御に着目し,エージェントが各時間ステップでガウスノイズを観測に付加し,その入力の敵対的摂動に対する感受性を低下させる政策平滑化を提案する。
我々の主な理論的貢献は、ある時点での対向摂動が、現在の観測と過去の観測と状態の確率関数であり、また、以前に観察された行動であるナイマン・ピアソン・レムマの適応版を証明することである。
この補題を用いて,画像分類の静的設定におけるランダム化スムース化によるロバストネス証明をRLの動的設定に適用する。
我々は、平滑化ポリシーによって得られる総報酬が、入力の通常の境界付き逆摂動の下で一定の閾値を下回らないことを保証した証明書を生成する。
解析結果から得られたバウンダリを達成できる最悪のケース設定を構築することで,証明書が厳密であることを示す。
本手法は, 複雑な環境において, 敵攻撃に対する有効性を示す有意義な証明を得られることを示す。
関連論文リスト
- The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks [23.907977144668838]
本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-28T22:33:38Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。