論文の概要: Adversary Agnostic Robust Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.06199v2
- Date: Thu, 24 Dec 2020 06:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 16:45:19.312747
- Title: Adversary Agnostic Robust Deep Reinforcement Learning
- Title(参考訳): 敵意のないロバストな深層強化学習
- Authors: Xinghua Qu, Yew-Soon Ong, Abhishek Gupta, Zhu Sun
- Abstract要約: 深層強化学習政策は、訓練中の摂動によって着想される。
以前のアプローチでは、訓練プロセスに敵の知識を追加することができると仮定していた。
本稿では,敵からの学習を必要としない頑健なDRLパラダイムを提案する。
- 参考スコア(独自算出の注目度): 23.9114110755044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) policies have been shown to be deceived by
perturbations (e.g., random noise or intensional adversarial attacks) on state
observations that appear at test time but are unknown during training. To
increase the robustness of DRL policies, previous approaches assume that the
knowledge of adversaries can be added into the training process to achieve the
corresponding generalization ability on these perturbed observations. However,
such an assumption not only makes the robustness improvement more expensive but
may also leave a model less effective to other kinds of attacks in the wild. In
contrast, we propose an adversary agnostic robust DRL paradigm that does not
require learning from adversaries. To this end, we first theoretically derive
that robustness could indeed be achieved independently of the adversaries based
on a policy distillation setting. Motivated by this finding, we propose a new
policy distillation loss with two terms: 1) a prescription gap maximization
loss aiming at simultaneously maximizing the likelihood of the action selected
by the teacher policy and the entropy over the remaining actions; 2) a
corresponding Jacobian regularization loss that minimizes the magnitude of the
gradient with respect to the input state. The theoretical analysis shows that
our distillation loss guarantees to increase the prescription gap and the
adversarial robustness. Furthermore, experiments on five Atari games firmly
verify the superiority of our approach in terms of boosting adversarial
robustness compared to other state-of-the-art methods.
- Abstract(参考訳): 深層強化学習(DRL)の政策は、テスト時に現れるが訓練中に未知の状態観察に対する摂動(例えば、ランダムノイズや逆境攻撃)によって欺かれることが示されている。
drlポリシーの堅牢性を高めるために、以前のアプローチでは、これらの摂動観測で対応する一般化能力を達成するために、敵の知識を訓練プロセスに追加できると仮定していた。
しかし、そのような仮定はロバスト性の改善をもっと高くするだけでなく、他の種類の攻撃に対してモデルをより効果的に残すこともできる。
対照的に、敵からの学習を必要としない逆非依存の頑健なDRLパラダイムを提案する。
この目的のために、我々はまず、政策蒸留設定に基づく敵とは独立して、ロバスト性が達成可能であることを理論的に導出する。
この発見により、我々は2つの条件で新しい政策蒸留損失を提案する。
1) 教師方針により選択された行動の可能性を最大化し,かつ,残りの行動に対するエントロピーを最大化することを目的とした処方料ギャップ最大化損失
2) 入力状態に対する勾配の大きさを最小化する対応するヤコビ正規化損失。
理論解析により, 蒸留損失は, 補充ギャップと対向ロバスト性を高めることが保証された。
さらに,5つのatariゲームにおける実験は,他の最先端手法と比較して,敵対的ロバスト性を高めるという点で,このアプローチの優位性を確証している。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks [23.907977144668838]
本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-28T22:33:38Z) - Improving Adversarial Robustness with Self-Paced Hard-Class Pair
Reweighting [5.084323778393556]
標的外攻撃による敵の訓練は 最も認知されている方法の1つです
自然に不均衡なクラス間のセマンティックな類似性により、これらのハードクラスのペアが互いに仮想的なターゲットになる。
モデル最適化における重み付きハードクラスペアの損失について提案し、ハードクラスからの識別的特徴の学習を促す。
論文 参考訳(メタデータ) (2022-10-26T22:51:36Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。