論文の概要: Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence
- arxiv url: http://arxiv.org/abs/2302.03322v1
- Date: Tue, 7 Feb 2023 08:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:00:23.647714
- Title: Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence
- Title(参考訳): 敵対的マイノリティ・インフルエンスによる協調型マルチエージェント強化学習
- Authors: Simin Li, Jun Guo, Jingqiao Xiu, Pu Feng, Xin Yu, Jiakai Wang, Aishan
Liu, Wenjun Wu, Xianglong Liu
- Abstract要約: 協調型マルチエージェント強化学習(c-MARL)は、エージェント群が共通の目標を達成するための一般的なパラダイムを提供する。
敵攻撃は、強靭性を評価し、c-MARLアルゴリズムの盲点を見つける上でも重要な役割を果たす。
本稿では,敵対的マイノリティ・インフルエンス (AMI) を提案する。
- 参考スコア(独自算出の注目度): 62.65441186478842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (c-MARL) offers a general
paradigm for a group of agents to achieve a shared goal by taking individual
decisions, yet is found to be vulnerable to adversarial attacks. Though
harmful, adversarial attacks also play a critical role in evaluating the
robustness and finding blind spots of c-MARL algorithms. However, existing
attacks are not sufficiently strong and practical, which is mainly due to the
ignorance of complex influence between agents and cooperative nature of victims
in c-MARL.
In this paper, we propose adversarial minority influence (AMI), the first
practical attack against c-MARL by introducing an adversarial agent. AMI
addresses the aforementioned problems by unilaterally influencing other
cooperative victims to a targeted worst-case cooperation. Technically, to
maximally deviate victim policy under complex agent-wise influence, our
unilateral attack characterize and maximize the influence from adversary to
victims. This is done by adapting a unilateral agent-wise relation metric
derived from mutual information, which filters out the detrimental influence
from victims to adversary. To fool victims into a jointly worst-case failure,
our targeted attack influence victims to a long-term, cooperatively worst case
by distracting each victim to a specific target. Such target is learned by a
reinforcement learning agent in a trial-and-error process. Extensive
experiments in simulation environments, including discrete control (SMAC),
continuous control (MAMujoco) and real-world robot swarm control demonstrate
the superiority of our AMI approach. Our codes are available in
https://anonymous.4open.science/r/AMI.
- Abstract(参考訳): 協調型マルチエージェント強化学習(c-MARL)は、エージェント集団が個々の決定をすることで共通の目標を達成するための一般的なパラダイムを提供する。
有害だが、逆攻撃はc-marlアルゴリズムの頑健さを評価し、盲点を見つける上で重要な役割を果たす。
しかし、既存の攻撃は十分に強力で実用的なものではなく、主にc-MARLにおけるエージェント間の複雑な影響と被害者の協調的な性質の欠如によるものである。
本稿では,敵対的マイノリティ・インフルエンス (AMI) を提案する。
AMIは、上記の問題に対処するため、一方的に他の協力的被害者に最悪の協力を迫られる。
技術的には、複雑なエージェント的な影響の下で被害者の政策を最大限に逸脱させるために、我々の一方的な攻撃は敵から被害者への影響を特徴づけ、最大化する。
これは、被害者から敵への有害な影響を除去する、相互情報から導かれる一方的なエージェント・ワイド・リレーション・メトリックを適用することによって行われる。
被害者を欺くために、ターゲットとする攻撃は、被害者を特定のターゲットに遠ざけることによって、長期的な協力的かつ最悪のケースに被害者に影響を与える。
このようなターゲットは、強化学習エージェントによって試行錯誤のプロセスで学習される。
離散制御(SMAC)、連続制御(MAMujoco)、実世界のロボット群制御を含むシミュレーション環境における大規模な実験は、我々のAMIアプローチの優位性を示している。
私たちのコードはhttps://anonymous.4open.science/r/AMIで利用可能です。
関連論文リスト
- SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent
Reinforcement Learning Systems [42.67697578435527]
攻撃者は、被害者の脆弱性を迅速に利用し、敵のポリシーを生成することができ、特定のタスクで被害者の失敗につながる。
本研究では,被害者の部分的観察に制限された場合においても,攻撃者が敵の政策を生成できる能力を明らかにする。
我々は,部分観測可能性の影響を軽減するために,複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(SUB-PLAY)を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:18:16Z) - Adversarial Attacks on Cooperative Multi-agent Bandits [41.79235070291252]
本研究は,CMA2Bに対する不均質および不均質な環境下での敵攻撃について検討する。
均質な設定では、各エージェントが特定のターゲットアームを$T-o(T)$倍選択し、$o(T)$攻撃コストを$T$ラウンドで発生させる攻撃戦略を提案する。
不均質な環境では、標的アーム攻撃が線形攻撃コストを必要とすることを証明し、少数の標的エージェントの観測のみを操作しながら、最大数のエージェントに線形後悔を強いる攻撃戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T04:03:19Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - AdvMind: Inferring Adversary Intent of Black-Box Attacks [66.19339307119232]
本稿では,ブラックボックス攻撃の敵意を頑健に推定する新たな評価モデルであるAdvMindを提案する。
平均的なAdvMindは、3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検出する。
論文 参考訳(メタデータ) (2020-06-16T22:04:31Z) - On the Robustness of Cooperative Multi-Agent Reinforcement Learning [32.92198917228515]
協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
一つのエージェントを攻撃することで、我々の攻撃方法はチーム全体の報酬に非常に悪影響を及ぼし、それを20から9.4に減らします。
論文 参考訳(メタデータ) (2020-03-08T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。