論文の概要: IMAP: Intrinsically Motivated Adversarial Policy
- arxiv url: http://arxiv.org/abs/2305.02605v1
- Date: Thu, 4 May 2023 07:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:37:32.397522
- Title: IMAP: Intrinsically Motivated Adversarial Policy
- Title(参考訳): IMAP: 本質的には敵対的政策
- Authors: Xiang Zheng, Xingjun Ma, Shengjie Wang, Xinyu Wang, Chao Shen, Cong
Wang
- Abstract要約: 強化学習(RL)エージェントは、デプロイ中に回避攻撃に弱いことが知られている。
我々は,効率的なブラックボックス回避攻撃のための固有モチベーション・アドバイザリー・ポリシー(IMAP)を提案する。
IMAPは、国家のカバレッジ、政策のカバレッジ、リスク、政策の多様化に基づく4つの本質的な目標を使用して、調査を奨励し、より強力な攻撃スキルを発見する。
- 参考スコア(独自算出の注目度): 32.58846883280389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents are known to be vulnerable to evasion
attacks during deployment. In single-agent environments, attackers can inject
imperceptible perturbations on the policy or value network's inputs or outputs;
in multi-agent environments, attackers can control an adversarial opponent to
indirectly influence the victim's observation. Adversarial policies offer a
promising solution to craft such attacks. Still, current approaches either
require perfect or partial knowledge of the victim policy or suffer from sample
inefficiency due to the sparsity of task-related rewards. To overcome these
limitations, we propose the Intrinsically Motivated Adversarial Policy (IMAP)
for efficient black-box evasion attacks in single- and multi-agent environments
without any knowledge of the victim policy. IMAP uses four intrinsic objectives
based on state coverage, policy coverage, risk, and policy divergence to
encourage exploration and discover stronger attacking skills. We also design a
novel Bias-Reduction (BR) method to boost IMAP further. Our experiments
demonstrate the effectiveness of these intrinsic objectives and BR in improving
adversarial policy learning in the black-box setting against multiple types of
victim agents in various single- and multi-agent MuJoCo environments. Notably,
our IMAP reduces the performance of the state-of-the-art robust WocaR-PPO
agents by 34\%-54\% and achieves a SOTA attacking success rate of 83.91\% in
the two-player zero-sum game YouShallNotPass.
- Abstract(参考訳): 強化学習(RL)エージェントは、デプロイ中に回避攻撃に弱いことが知られている。
単一エージェント環境では、攻撃者はポリシーや価値ネットワークの入力や出力に知覚できない摂動を注入することができ、マルチエージェント環境では、攻撃者は敵を制御して被害者の観察に間接的に影響を及ぼすことができる。
敵の政策はそのような攻撃を行うための有望な解決策を提供する。
しかし、現在のアプローチでは、被害者ポリシーの完全または部分的な知識を必要とするか、タスク関連の報酬のスパースのためにサンプル非効率に苦しむかのどちらかである。
これらの制限を克服するために,単一・複数エージェント環境における効率的なブラックボックス回避攻撃を,被害者の方針を知らずに行うためのIMAP(Intivated Adversarial Policy)を提案する。
IMAPは、国家のカバレッジ、政策のカバレッジ、リスク、政策の多様化に基づく4つの本質的な目標を使用して、探索を促進し、より強力な攻撃スキルを発見する。
また,imapをさらに高めるための新しいバイアス・リダクション(br)法も設計した。
本実験は,種々の単一・マルチエージェントの MuJoCo 環境における複数種類の被害者エージェントに対するブラックボックス環境において,これらの固有目的とBRの有効性を実証するものである。
特に、我々のIMAPは、最先端のロバストなWocaR-PPOエージェントの性能を34\%-54\%削減し、2プレイヤのゼロサムゲームYouShallNotPassにおいて、SOTA攻撃成功率83.91\%を達成する。
関連論文リスト
- Behavior-Targeted Attack on Reinforcement Learning with Limited Access to Victim's Policy [9.530897053573186]
ブラックボックス内の被害者エージェントを操作する新しい方法を提案する。
本手法は二段階最適化問題として定式化され,マッチング問題に還元される。
いくつかの強化学習ベンチマークにおける実証評価の結果,提案手法はベースラインに対する攻撃性能に優れていた。
論文 参考訳(メタデータ) (2024-06-06T08:49:51Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Implicit Poisoning Attacks in Two-Agent Reinforcement Learning:
Adversarial Policies for Training-Time Attacks [21.97069271045167]
標的毒攻撃では、攻撃者はエージェントと環境の相互作用を操作して、ターゲットポリシーと呼ばれる利害政策を採用するように強制する。
本研究では,攻撃者がエージェントの有効環境を暗黙的に毒殺する2エージェント環境での標的毒殺攻撃について,仲間の方針を変更して検討した。
最適な攻撃を設計するための最適化フレームワークを開発し、攻撃のコストは、ピアエージェントが想定するデフォルトポリシーからどの程度逸脱するかを測定する。
論文 参考訳(メタデータ) (2023-02-27T14:52:15Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。