論文の概要: On the Robustness of Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.03722v1
- Date: Sun, 8 Mar 2020 05:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:06:11.958039
- Title: On the Robustness of Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のロバスト性について
- Authors: Jieyu Lin, Kristina Dzeparoska, Sai Qian Zhang, Alberto Leon-Garcia,
Nicolas Papernot
- Abstract要約: 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
一つのエージェントを攻撃することで、我々の攻撃方法はチーム全体の報酬に非常に悪影響を及ぼし、それを20から9.4に減らします。
- 参考スコア(独自算出の注目度): 32.92198917228515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning (c-MARL), agents learn to
cooperatively take actions as a team to maximize a total team reward. We
analyze the robustness of c-MARL to adversaries capable of attacking one of the
agents on a team. Through the ability to manipulate this agent's observations,
the adversary seeks to decrease the total team reward.
Attacking c-MARL is challenging for three reasons: first, it is difficult to
estimate team rewards or how they are impacted by an agent mispredicting;
second, models are non-differentiable; and third, the feature space is
low-dimensional. Thus, we introduce a novel attack. The attacker first trains a
policy network with reinforcement learning to find a wrong action it should
encourage the victim agent to take. Then, the adversary uses targeted
adversarial examples to force the victim to take this action.
Our results on the StartCraft II multi-agent benchmark demonstrate that
c-MARL teams are highly vulnerable to perturbations applied to one of their
agent's observations. By attacking a single agent, our attack method has highly
negative impact on the overall team reward, reducing it from 20 to 9.4. This
results in the team's winning rate to go down from 98.9% to 0%.
- Abstract(参考訳): 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
このエージェントの観察を操作する能力を通じて、敵はチーム報酬の合計を減らそうとする。
第一に、チームの報酬やエージェントの誤った予測による影響を見積もることは困難であり、第二に、モデルは微分不可能であり、第三に、機能空間は低次元である。
そこで我々は新たな攻撃を導入する。
攻撃者はまずポリシーネットワークを訓練し、強化学習を行い、被害者のエージェントが取るべき間違った行動を見つける。
そして、敵は標的となる敵の例を使って、被害者にこの行為を強制する。
StartCraft IIのマルチエージェントベンチマークの結果、c-MARLチームはエージェントの観測に適用される摂動に対して非常に脆弱であることが示された。
1つのエージェントを攻撃することで、攻撃方法はチーム全体の報酬に非常に悪影響を与え、それを20から9.4に削減します。
この結果、チームの勝利率は98.9%から0%に低下した。
関連論文リスト
- Adversarial Attacks on Cooperative Multi-agent Bandits [41.79235070291252]
本研究は,CMA2Bに対する不均質および不均質な環境下での敵攻撃について検討する。
均質な設定では、各エージェントが特定のターゲットアームを$T-o(T)$倍選択し、$o(T)$攻撃コストを$T$ラウンドで発生させる攻撃戦略を提案する。
不均質な環境では、標的アーム攻撃が線形攻撃コストを必要とすることを証明し、少数の標的エージェントの観測のみを操作しながら、最大数のエージェントに線形後悔を強いる攻撃戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T04:03:19Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence [57.154716042854034]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Adversarial Machine Learning and Defense Game for NextG Signal
Classification with Deep Learning [1.1726528038065764]
NextGシステムは、ユーザ機器の識別、物理層認証、既存ユーザの検出など、さまざまなタスクにディープニューラルネットワーク(DNN)を使用することができる。
本稿では,深層学習に基づくNextG信号分類のための攻撃と防御の相互作用を研究するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-22T15:13:03Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。