論文の概要: On the Robustness of Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.03722v1
- Date: Sun, 8 Mar 2020 05:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:06:11.958039
- Title: On the Robustness of Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のロバスト性について
- Authors: Jieyu Lin, Kristina Dzeparoska, Sai Qian Zhang, Alberto Leon-Garcia,
Nicolas Papernot
- Abstract要約: 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
一つのエージェントを攻撃することで、我々の攻撃方法はチーム全体の報酬に非常に悪影響を及ぼし、それを20から9.4に減らします。
- 参考スコア(独自算出の注目度): 32.92198917228515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning (c-MARL), agents learn to
cooperatively take actions as a team to maximize a total team reward. We
analyze the robustness of c-MARL to adversaries capable of attacking one of the
agents on a team. Through the ability to manipulate this agent's observations,
the adversary seeks to decrease the total team reward.
Attacking c-MARL is challenging for three reasons: first, it is difficult to
estimate team rewards or how they are impacted by an agent mispredicting;
second, models are non-differentiable; and third, the feature space is
low-dimensional. Thus, we introduce a novel attack. The attacker first trains a
policy network with reinforcement learning to find a wrong action it should
encourage the victim agent to take. Then, the adversary uses targeted
adversarial examples to force the victim to take this action.
Our results on the StartCraft II multi-agent benchmark demonstrate that
c-MARL teams are highly vulnerable to perturbations applied to one of their
agent's observations. By attacking a single agent, our attack method has highly
negative impact on the overall team reward, reducing it from 20 to 9.4. This
results in the team's winning rate to go down from 98.9% to 0%.
- Abstract(参考訳): 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
このエージェントの観察を操作する能力を通じて、敵はチーム報酬の合計を減らそうとする。
第一に、チームの報酬やエージェントの誤った予測による影響を見積もることは困難であり、第二に、モデルは微分不可能であり、第三に、機能空間は低次元である。
そこで我々は新たな攻撃を導入する。
攻撃者はまずポリシーネットワークを訓練し、強化学習を行い、被害者のエージェントが取るべき間違った行動を見つける。
そして、敵は標的となる敵の例を使って、被害者にこの行為を強制する。
StartCraft IIのマルチエージェントベンチマークの結果、c-MARLチームはエージェントの観測に適用される摂動に対して非常に脆弱であることが示された。
1つのエージェントを攻撃することで、攻撃方法はチーム全体の報酬に非常に悪影響を与え、それを20から9.4に削減します。
この結果、チームの勝利率は98.9%から0%に低下した。
関連論文リスト
- Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning [16.350898218047405]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。
これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。
次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence [41.14664289570607]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。