論文の概要: Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL
- arxiv url: http://arxiv.org/abs/2106.05087v1
- Date: Wed, 9 Jun 2021 14:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 14:55:07.925038
- Title: Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL
- Title(参考訳): 最強の敵は誰だ?
深部RLにおける最適かつ効率的な侵入攻撃に向けて
- Authors: Yanchao Sun, Ruijie Zheng, Yongyuan Liang, Furong Huang
- Abstract要約: 最適な敵を見つけることは、最適な攻撃を見つけることができるかどうかと、それをどれだけ効率的に見つけることができるかという両面において困難である。
本稿では,RLに基づく最適政策摂動を探索する「ディレクタ」と,ディレクタの指示に従う「アクタ」状態摂動を行う新たなアタックアルゴリズムを提案する。
提案アルゴリズムであるPA-ADは,RLエージェントに対して理論的に最適であり,大または画素状態の環境における従来のRLベースの作業と比較して,効率を著しく向上する。
- 参考スコア(独自算出の注目度): 7.624866197576227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the worst-case performance of a reinforcement learning (RL) agent
under the strongest/optimal adversarial perturbations on state observations
(within some constraints) is crucial for understanding the robustness of RL
agents. However, finding the optimal adversary is challenging, in terms of both
whether we can find the optimal attack and how efficiently we can find it.
Existing works on adversarial RL either use heuristics-based methods that may
not find the strongest adversary, or directly train an RL-based adversary by
treating the agent as a part of the environment, which can find the optimal
adversary but may become intractable in a large state space. In this paper, we
propose a novel attacking algorithm which has an RL-based "director" searching
for the optimal policy perturbation, and an "actor" crafting state
perturbations following the directions from the director (i.e. the actor
executes targeted attacks). Our proposed algorithm, PA-AD, is theoretically
optimal against an RL agent and significantly improves the efficiency compared
with prior RL-based works in environments with large or pixel state spaces.
Empirical results show that our proposed PA-AD universally outperforms
state-of-the-art attacking methods in a wide range of environments. Our method
can be easily applied to any RL algorithms to evaluate and improve their
robustness.
- Abstract(参考訳): 強化学習(rl)エージェントの(いくつかの制約を含む)状態観察における最強/最適逆摂動下での最悪の性能評価は、rlエージェントの頑健性を理解する上で重要である。
しかし、最適な敵を見つけることは、最適な攻撃を見つけられるか、どれだけ効率的にそれを見つけるかという観点で、困難である。
敵意rlの既存の作品は、最強の敵を見つけられないヒューリスティックスベースの方法を使うか、または、最適な敵を見つけられるが大きな状態空間では難解になる可能性のある環境の一部としてそのエージェントを処理して、rlベースの敵意を直接訓練する。
本稿では, 最適政策摂動を探索するrlベース「管理者」と, 管理者からの指示に従って状態摂動を行う「アクタ」を有する新しい攻撃アルゴリズムを提案する。
俳優は標的攻撃を行う)
提案アルゴリズムであるPA-ADは,RLエージェントに対して理論的に最適であり,大または画素状態の環境における従来のRLベースの作業と比較して,効率を著しく向上する。
実験結果から,提案したPA-ADは,幅広い環境下での最先端攻撃手法よりも優れていた。
提案手法は,どのRLアルゴリズムにも容易に適用でき,ロバスト性を評価・改善することができる。
関連論文リスト
- Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning [6.414910263179327]
オンライン深層学習(DRL)における報酬中毒に関する研究
我々は、敵MDP攻撃と呼ばれる一般的なブラックボックス報酬中毒フレームワークを設計することで、最先端DRLアルゴリズムの本質的な脆弱性を実証する。
以上の結果から,我々の攻撃は,いくつかの古典的制御環境や MuJoCo 環境下で学習する有害物質を効果的に検出できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:07:19Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Real-time Attacks Against Deep Reinforcement Learning Policies [14.085247099075628]
本稿では,DRL ポリシーを騙す新たな攻撃法を提案する。
我々は,UAP法を用いて,適用対象の個々の入力に依存しない効果的な摂動を計算する。
論文 参考訳(メタデータ) (2021-06-16T12:44:59Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。