論文の概要: Real-time Attacks Against Deep Reinforcement Learning Policies
- arxiv url: http://arxiv.org/abs/2106.08746v1
- Date: Wed, 16 Jun 2021 12:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 02:05:45.639138
- Title: Real-time Attacks Against Deep Reinforcement Learning Policies
- Title(参考訳): 深層強化学習政策に対するリアルタイム攻撃
- Authors: Buse G.A. Tekgul, Shelly Wang, Samuel Marchal, N. Asokan
- Abstract要約: 本稿では,DRL ポリシーを騙す新たな攻撃法を提案する。
我々は,UAP法を用いて,適用対象の個々の入力に依存しない効果的な摂動を計算する。
- 参考スコア(独自算出の注目度): 14.085247099075628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has discovered that deep reinforcement learning (DRL) policies
are vulnerable to adversarial examples. These attacks mislead the policy of DRL
agents by perturbing the state of the environment observed by agents. They are
feasible in principle but too slow to fool DRL policies in real time. We
propose a new attack to fool DRL policies that is both effective and efficient
enough to be mounted in real time. We utilize the Universal Adversarial
Perturbation (UAP) method to compute effective perturbations independent of the
individual inputs to which they are applied. Via an extensive evaluation using
Atari 2600 games, we show that our technique is effective, as it fully degrades
the performance of both deterministic and stochastic policies (up to 100%, even
when the $l_\infty$ bound on the perturbation is as small as 0.005). We also
show that our attack is efficient, incurring an online computational cost of
0.027ms on average. It is faster compared to the response time (0.6ms on
average) of agents with different DRL policies, and considerably faster than
prior attacks (2.7ms on average). Furthermore, we demonstrate that known
defenses are ineffective against universal perturbations. We propose an
effective detection technique which can form the basis for robust defenses
against attacks based on universal perturbations.
- Abstract(参考訳): 近年の研究では、深い強化学習(DRL)政策が敵の例に弱いことが判明している。
これらの攻撃は、エージェントが観察する環境状態を混乱させることで、drlエージェントのポリシーを誤解させる。
原則的には実現可能だが、DRLポリシーをリアルタイムで騙すには遅すぎる。
本稿では,DRL ポリシーを騙す新たな攻撃法を提案する。
我々は,UAP法を用いて,適用対象の個々の入力に依存しない効果的な摂動を計算する。
atari 2600ゲームを用いた広範な評価により,本手法は決定論的および確率的ポリシ(摂動に対する$l_\infty$バウンドが0.005である場合でも100%まで)の性能を完全に低下させるため,有効であることを示した。
また、我々の攻撃は効率的であり、オンラインの計算コストは平均0.027msであることを示す。
DRLポリシーが異なるエージェントの応答時間 (平均0.6ms) よりも高速で、以前の攻撃 (平均2.7ms) よりもかなり高速である。
さらに、既知の防御は普遍的な摂動に対して効果がないことを示す。
本稿では,普遍的な摂動に基づく攻撃に対する強固な防御の基礎となる効果的な検出手法を提案する。
関連論文リスト
- ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning [6.414910263179327]
オンライン深層学習(DRL)における報酬中毒に関する研究
我々は、敵MDP攻撃と呼ばれる一般的なブラックボックス報酬中毒フレームワークを設計することで、最先端DRLアルゴリズムの本質的な脆弱性を実証する。
以上の結果から,我々の攻撃は,いくつかの古典的制御環境や MuJoCo 環境下で学習する有害物質を効果的に検出できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:07:19Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL [14.702446153750497]
本稿では,「アクター」と呼ばれる設計関数と「ディレクタ」と呼ばれるRLベースの学習者との協調により,最適な攻撃を見つけるための新たな攻撃手法を提案する。
提案アルゴリズムであるPA-ADは理論上最適であり,大きな状態空間を持つ環境下での従来のRLに基づく作業よりもはるかに効率的である。
論文 参考訳(メタデータ) (2021-06-09T14:06:53Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。