Fugu-MT 論文翻訳(概要): On the Robustness of Cooperative Multi-Agent Reinforcement Learning

論文の概要: On the Robustness of Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2003.03722v1
Date: Sun, 8 Mar 2020 05:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 14:06:11.958039
Title: On the Robustness of Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: 協調型マルチエージェント強化学習のロバスト性について
Authors: Jieyu Lin, Kristina Dzeparoska, Sai Qian Zhang, Alberto Leon-Garcia, Nicolas Papernot
Abstract要約: 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。一つのエージェントを攻撃することで、我々の攻撃方法はチーム全体の報酬に非常に悪影響を及ぼし、それを20から9.4に減らします。
参考スコア（独自算出の注目度）: 32.92198917228515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In cooperative multi-agent reinforcement learning (c-MARL), agents learn to cooperatively take actions as a team to maximize a total team reward. We analyze the robustness of c-MARL to adversaries capable of attacking one of the agents on a team. Through the ability to manipulate this agent's observations, the adversary seeks to decrease the total team reward. Attacking c-MARL is challenging for three reasons: first, it is difficult to estimate team rewards or how they are impacted by an agent mispredicting; second, models are non-differentiable; and third, the feature space is low-dimensional. Thus, we introduce a novel attack. The attacker first trains a policy network with reinforcement learning to find a wrong action it should encourage the victim agent to take. Then, the adversary uses targeted adversarial examples to force the victim to take this action. Our results on the StartCraft II multi-agent benchmark demonstrate that c-MARL teams are highly vulnerable to perturbations applied to one of their agent's observations. By attacking a single agent, our attack method has highly negative impact on the overall team reward, reducing it from 20 to 9.4. This results in the team's winning rate to go down from 98.9% to 0%.
Abstract（参考訳）: 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。このエージェントの観察を操作する能力を通じて、敵はチーム報酬の合計を減らそうとする。第一に、チームの報酬やエージェントの誤った予測による影響を見積もることは困難であり、第二に、モデルは微分不可能であり、第三に、機能空間は低次元である。そこで我々は新たな攻撃を導入する。攻撃者はまずポリシーネットワークを訓練し、強化学習を行い、被害者のエージェントが取るべき間違った行動を見つける。そして、敵は標的となる敵の例を使って、被害者にこの行為を強制する。 StartCraft IIのマルチエージェントベンチマークの結果、c-MARLチームはエージェントの観測に適用される摂動に対して非常に脆弱であることが示された。 1つのエージェントを攻撃することで、攻撃方法はチーム全体の報酬に非常に悪影響を与え、それを20から9.4に削減します。この結果、チームの勝利率は98.9%から0%に低下した。

関連論文リスト

Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [55.28518567702213]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文参考訳（メタデータ） (2025-06-09T06:35:12Z)
Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning [16.350898218047405]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
論文参考訳（メタデータ） (2024-10-17T19:50:28Z)
CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。 TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。 CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文参考訳（メタデータ） (2024-06-25T09:59:31Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。 MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文参考訳（メタデータ） (2023-10-18T11:36:42Z)
Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文参考訳（メタデータ） (2023-07-15T00:38:55Z)
Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence [41.14664289570607]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。 AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文参考訳（メタデータ） (2023-02-07T08:54:37Z)
Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。攻撃者数の増加は攻撃者の攻撃成功率を減少させる。そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文参考訳（メタデータ） (2021-10-09T13:53:57Z)
BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文参考訳（メタデータ） (2021-05-02T23:47:55Z)
Robust Reinforcement Learning on State Observations with Learned Optimal Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。 DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文参考訳（メタデータ） (2021-01-21T05:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。