論文の概要: Query-based Targeted Action-Space Adversarial Policies on Deep
Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2011.07114v2
- Date: Sat, 20 Feb 2021 21:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:45:50.738016
- Title: Query-based Targeted Action-Space Adversarial Policies on Deep
Reinforcement Learning Agents
- Title(参考訳): 深層強化学習エージェントにおける問合せ型行動空間対応策
- Authors: Xian Yeow Lee, Yasaman Esfandiari, Kai Liang Tan, Soumik Sarkar
- Abstract要約: 本研究は、CPS文学における行動空間領域における標的攻撃(アクティベーション攻撃)を調査する。
対向目標に対する最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが、別の強化学習問題として定式化可能であることを示す。
実験の結果,名目政策のアウトプットのみを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。
- 参考スコア(独自算出の注目度): 23.580682320064714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in computing resources have resulted in the increasing complexity of
cyber-physical systems (CPS). As the complexity of CPS evolved, the focus has
shifted from traditional control methods to deep reinforcement learning-based
(DRL) methods for control of these systems. This is due to the difficulty of
obtaining accurate models of complex CPS for traditional control. However, to
securely deploy DRL in production, it is essential to examine the weaknesses of
DRL-based controllers (policies) towards malicious attacks from all angles. In
this work, we investigate targeted attacks in the action-space domain, also
commonly known as actuation attacks in CPS literature, which perturbs the
outputs of a controller. We show that a query-based black-box attack model that
generates optimal perturbations with respect to an adversarial goal can be
formulated as another reinforcement learning problem. Thus, such an adversarial
policy can be trained using conventional DRL methods. Experimental results
showed that adversarial policies that only observe the nominal policy's output
generate stronger attacks than adversarial policies that observe the nominal
policy's input and output. Further analysis reveals that nominal policies whose
outputs are frequently at the boundaries of the action space are naturally more
robust towards adversarial policies. Lastly, we propose the use of adversarial
training with transfer learning to induce robust behaviors into the nominal
policy, which decreases the rate of successful targeted attacks by 50%.
- Abstract(参考訳): コンピュータ資源の進歩はサイバー物理システム(CPS)の複雑さを増す結果となった。
CPSの複雑さが発展するにつれて、従来の制御方法から、これらのシステムの制御のための深層強化学習法(DRL)へと焦点が移った。
これは、従来の制御のために複雑なCPSの正確なモデルを得るのが難しいためである。
しかし、DRLを安全に運用するには、あらゆる角度からの悪意ある攻撃に対するDRLベースのコントローラ(政治)の弱点を調べることが不可欠である。
本研究では,制御器の出力を乱す,動作空間領域の標的攻撃(CPS文学におけるアクティベーション攻撃)について検討する。
敵目標に対して最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが,強化学習問題として定式化できることを示す。
したがって、従来のDRL法を用いて、このような逆ポリシーを訓練することができる。
実験の結果,名目政策のアウトプットを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。
さらなる分析により、アクション空間の境界で頻繁に出力される名目ポリシーは、adversarial policyに対して自然により強固であることが明らかになった。
最後に,移動学習を用いた対人訓練を用いて,名目政策に頑健な動作を誘導し,標的攻撃の成功率を50%減少させる手法を提案する。
関連論文リスト
- How vulnerable is my policy? Adversarial attacks on modern behavior cloning policies [22.52780232632902]
本稿では,LfD(Learning from Demonstration)アルゴリズムに対する敵対的攻撃の包括的研究について述べる。
我々は,これらの手法の脆弱性について,標的外,標的外,普遍的摂動に対する検討を行った。
いくつかのロボット操作のシミュレーション実験により、現在の手法のほとんどは敵の摂動に非常に弱いことが判明した。
論文 参考訳(メタデータ) (2025-02-06T01:17:39Z) - ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robustifying Reinforcement Learning Agents via Action Space Adversarial
Training [23.284452331353894]
機械学習(ML)を応用したサイバー物理システム(CPS)の採用は、現代社会の様々な分野に広まっている。
深層強化学習(DRL)の最近の研究は、様々なデータ駆動型意思決定と制御アプリケーションにおいてその利点を実証している。
動作空間摂動の影響を受けやすいDRLエージェントを, 対向訓練により, 同様の摂動に対して堅牢化できることを示す。
論文 参考訳(メタデータ) (2020-07-14T16:50:02Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。