論文の概要: Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary
- arxiv url: http://arxiv.org/abs/2101.08452v1
- Date: Thu, 21 Jan 2021 05:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:08:15.672876
- Title: Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary
- Title(参考訳): 学習した最適逆境を用いた状態観察によるロバスト強化学習
- Authors: Huan Zhang, Hongge Chen, Duane Boning, Cho-Jui Hsieh
- Abstract要約: 逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
- 参考スコア(独自算出の注目度): 86.0846119254031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the robustness of reinforcement learning (RL) with adversarially
perturbed state observations, which aligns with the setting of many adversarial
attacks to deep reinforcement learning (DRL) and is also important for rolling
out real-world RL agent under unpredictable sensing noise. With a fixed agent
policy, we demonstrate that an optimal adversary to perturb state observations
can be found, which is guaranteed to obtain the worst case agent reward. For
DRL settings, this leads to a novel empirical adversarial attack to RL agents
via a learned adversary that is much stronger than previous ones. To enhance
the robustness of an agent, we propose a framework of alternating training with
learned adversaries (ATLA), which trains an adversary online together with the
agent using policy gradient following the optimal adversarial attack framework.
Additionally, inspired by the analysis of state-adversarial Markov decision
process (SA-MDP), we show that past states and actions (history) can be useful
for learning a robust agent, and we empirically find a LSTM based policy can be
more robust under adversaries. Empirical evaluations on a few continuous
control environments show that ATLA achieves state-of-the-art performance under
strong adversaries. Our code is available at
https://github.com/huanzhang12 /ATLA_robust_RL.
- Abstract(参考訳): 本研究は,高次強化学習(DRL)に対する多くの敵攻撃の設定と整合し,予測不能な感知雑音下で実世界のRLエージェントをロールアウトする上でも重要である,逆摂動状態観測による強化学習(RL)の堅牢性について検討する。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵が見つかることが示され、最悪のエージェント報酬が得られることが保証される。
DRL設定の場合、これはRLエージェントに対する新しい経験的敵攻撃につながる。
エージェントのロバスト性を高めるため,我々は,最適な攻撃枠組みに従うポリシー勾配を用いて,エージェントと共にオンラインの敵を訓練する学習敵(atla)による交互訓練の枠組みを提案する。
さらに,SA-MDPの分析から,過去状態や行動(歴史)が堅牢なエージェントの学習に有用であること,LSTMに基づく政策が敵の立場でより堅牢であることが実証的に確認された。
いくつかの連続制御環境における実証的な評価は、ATLAが強い敵の下で最先端の性能を達成することを示している。
私たちのコードはhttps://github.com/huanzhang12 /atla_robust_rlで利用可能です。
関連論文リスト
- Adversarially Trained Actor Critic for Offline Reinforcement Learning [42.42451519801851]
ATACは、データカバレッジが不十分な状態でオフラインで強化学習を行うための新しいモデルなしアルゴリズムである。
D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて、最先端のオフラインRLアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-02-05T01:02:46Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative
Reinforcement Learning [37.24674549469648]
我々は、MACRLメソッドに対するメッセージアタックの実施に向けた第一歩を踏み出す。
我々はメッセージ再構成による防衛手法を開発した。
我々は、悪意あるエージェントが、防御的コミュニケーション政策の変化と改善に適応する能力を考える。
論文 参考訳(メタデータ) (2021-08-09T04:41:47Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL [7.624866197576227]
最適な敵を見つけることは、最適な攻撃を見つけることができるかどうかと、それをどれだけ効率的に見つけることができるかという両面において困難である。
本稿では,RLに基づく最適政策摂動を探索する「ディレクタ」と,ディレクタの指示に従う「アクタ」状態摂動を行う新たなアタックアルゴリズムを提案する。
提案アルゴリズムであるPA-ADは,RLエージェントに対して理論的に最適であり,大または画素状態の環境における従来のRLベースの作業と比較して,効率を著しく向上する。
論文 参考訳(メタデータ) (2021-06-09T14:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。