論文の概要: Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary
- arxiv url: http://arxiv.org/abs/2101.08452v1
- Date: Thu, 21 Jan 2021 05:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:08:15.672876
- Title: Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary
- Title(参考訳): 学習した最適逆境を用いた状態観察によるロバスト強化学習
- Authors: Huan Zhang, Hongge Chen, Duane Boning, Cho-Jui Hsieh
- Abstract要約: 逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
- 参考スコア(独自算出の注目度): 86.0846119254031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the robustness of reinforcement learning (RL) with adversarially
perturbed state observations, which aligns with the setting of many adversarial
attacks to deep reinforcement learning (DRL) and is also important for rolling
out real-world RL agent under unpredictable sensing noise. With a fixed agent
policy, we demonstrate that an optimal adversary to perturb state observations
can be found, which is guaranteed to obtain the worst case agent reward. For
DRL settings, this leads to a novel empirical adversarial attack to RL agents
via a learned adversary that is much stronger than previous ones. To enhance
the robustness of an agent, we propose a framework of alternating training with
learned adversaries (ATLA), which trains an adversary online together with the
agent using policy gradient following the optimal adversarial attack framework.
Additionally, inspired by the analysis of state-adversarial Markov decision
process (SA-MDP), we show that past states and actions (history) can be useful
for learning a robust agent, and we empirically find a LSTM based policy can be
more robust under adversaries. Empirical evaluations on a few continuous
control environments show that ATLA achieves state-of-the-art performance under
strong adversaries. Our code is available at
https://github.com/huanzhang12/ATLA_robust_RL.
- Abstract(参考訳): 本研究は,高次強化学習(DRL)に対する多くの敵攻撃の設定と整合し,予測不能な感知雑音下で実世界のRLエージェントをロールアウトする上でも重要である,逆摂動状態観測による強化学習(RL)の堅牢性について検討する。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵が見つかることが示され、最悪のエージェント報酬が得られることが保証される。
DRL設定の場合、これはRLエージェントに対する新しい経験的敵攻撃につながる。
エージェントのロバスト性を高めるため,我々は,最適な攻撃枠組みに従うポリシー勾配を用いて,エージェントと共にオンラインの敵を訓練する学習敵(atla)による交互訓練の枠組みを提案する。
さらに,SA-MDPの分析から,過去状態や行動(歴史)が堅牢なエージェントの学習に有用であること,LSTMに基づく政策が敵の立場でより堅牢であることが実証的に確認された。
いくつかの連続制御環境における実証的な評価は、ATLAが強い敵の下で最先端の性能を達成することを示している。
私たちのコードはhttps://github.com/huanzhang12/atla_robust_rlで利用可能です。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Robust Deep Reinforcement Learning Through Adversarial Attacks and
Training : A Survey [8.463282079069362]
Deep Reinforcement Learning (DRL)は、さまざまな複雑な環境で自律エージェントを訓練するためのアプローチである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念が高まっている。
DRLの未知の変化に対するロバスト性を改善する方法として, 対人訓練がある。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL [14.702446153750497]
本稿では,「アクター」と呼ばれる設計関数と「ディレクタ」と呼ばれるRLベースの学習者との協調により,最適な攻撃を見つけるための新たな攻撃手法を提案する。
提案アルゴリズムであるPA-ADは理論上最適であり,大きな状態空間を持つ環境下での従来のRLに基づく作業よりもはるかに効率的である。
論文 参考訳(メタデータ) (2021-06-09T14:06:53Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。