論文の概要: Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence
- arxiv url: http://arxiv.org/abs/2302.03322v1
- Date: Tue, 7 Feb 2023 08:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:00:23.647714
- Title: Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence
- Title(参考訳): 敵対的マイノリティ・インフルエンスによる協調型マルチエージェント強化学習
- Authors: Simin Li, Jun Guo, Jingqiao Xiu, Pu Feng, Xin Yu, Jiakai Wang, Aishan
Liu, Wenjun Wu, Xianglong Liu
- Abstract要約: 協調型マルチエージェント強化学習(c-MARL)は、エージェント群が共通の目標を達成するための一般的なパラダイムを提供する。
敵攻撃は、強靭性を評価し、c-MARLアルゴリズムの盲点を見つける上でも重要な役割を果たす。
本稿では,敵対的マイノリティ・インフルエンス (AMI) を提案する。
- 参考スコア(独自算出の注目度): 62.65441186478842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (c-MARL) offers a general
paradigm for a group of agents to achieve a shared goal by taking individual
decisions, yet is found to be vulnerable to adversarial attacks. Though
harmful, adversarial attacks also play a critical role in evaluating the
robustness and finding blind spots of c-MARL algorithms. However, existing
attacks are not sufficiently strong and practical, which is mainly due to the
ignorance of complex influence between agents and cooperative nature of victims
in c-MARL.
In this paper, we propose adversarial minority influence (AMI), the first
practical attack against c-MARL by introducing an adversarial agent. AMI
addresses the aforementioned problems by unilaterally influencing other
cooperative victims to a targeted worst-case cooperation. Technically, to
maximally deviate victim policy under complex agent-wise influence, our
unilateral attack characterize and maximize the influence from adversary to
victims. This is done by adapting a unilateral agent-wise relation metric
derived from mutual information, which filters out the detrimental influence
from victims to adversary. To fool victims into a jointly worst-case failure,
our targeted attack influence victims to a long-term, cooperatively worst case
by distracting each victim to a specific target. Such target is learned by a
reinforcement learning agent in a trial-and-error process. Extensive
experiments in simulation environments, including discrete control (SMAC),
continuous control (MAMujoco) and real-world robot swarm control demonstrate
the superiority of our AMI approach. Our codes are available in
https://anonymous.4open.science/r/AMI.
- Abstract(参考訳): 協調型マルチエージェント強化学習(c-MARL)は、エージェント集団が個々の決定をすることで共通の目標を達成するための一般的なパラダイムを提供する。
有害だが、逆攻撃はc-marlアルゴリズムの頑健さを評価し、盲点を見つける上で重要な役割を果たす。
しかし、既存の攻撃は十分に強力で実用的なものではなく、主にc-MARLにおけるエージェント間の複雑な影響と被害者の協調的な性質の欠如によるものである。
本稿では,敵対的マイノリティ・インフルエンス (AMI) を提案する。
AMIは、上記の問題に対処するため、一方的に他の協力的被害者に最悪の協力を迫られる。
技術的には、複雑なエージェント的な影響の下で被害者の政策を最大限に逸脱させるために、我々の一方的な攻撃は敵から被害者への影響を特徴づけ、最大化する。
これは、被害者から敵への有害な影響を除去する、相互情報から導かれる一方的なエージェント・ワイド・リレーション・メトリックを適用することによって行われる。
被害者を欺くために、ターゲットとする攻撃は、被害者を特定のターゲットに遠ざけることによって、長期的な協力的かつ最悪のケースに被害者に影響を与える。
このようなターゲットは、強化学習エージェントによって試行錯誤のプロセスで学習される。
離散制御(SMAC)、連続制御(MAMujoco)、実世界のロボット群制御を含むシミュレーション環境における大規模な実験は、我々のAMIアプローチの優位性を示している。
私たちのコードはhttps://anonymous.4open.science/r/AMIで利用可能です。
関連論文リスト
- CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems [40.91476827978885]
攻撃者は被害者の脆弱性を迅速に悪用し、特定のタスクの失敗につながる敵のポリシーを生成する。
部分観測可能性の影響を軽減するために,複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(SUB-PLAY)を提案する。
我々は,敵対的政策によるセキュリティの脅威を軽減するための3つの防衛策を評価する。
論文 参考訳(メタデータ) (2024-02-06T06:18:16Z) - Adversarial Attacks on Cooperative Multi-agent Bandits [41.79235070291252]
本研究は,CMA2Bに対する不均質および不均質な環境下での敵攻撃について検討する。
均質な設定では、各エージェントが特定のターゲットアームを$T-o(T)$倍選択し、$o(T)$攻撃コストを$T$ラウンドで発生させる攻撃戦略を提案する。
不均質な環境では、標的アーム攻撃が線形攻撃コストを必要とすることを証明し、少数の標的エージェントの観測のみを操作しながら、最大数のエージェントに線形後悔を強いる攻撃戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T04:03:19Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - On the Robustness of Cooperative Multi-Agent Reinforcement Learning [32.92198917228515]
協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
一つのエージェントを攻撃することで、我々の攻撃方法はチーム全体の報酬に非常に悪影響を及ぼし、それを20から9.4に減らします。
論文 参考訳(メタデータ) (2020-03-08T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。