論文の概要: Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers
- arxiv url: http://arxiv.org/abs/2305.05909v1
- Date: Wed, 10 May 2023 05:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:18:12.463456
- Title: Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers
- Title(参考訳): 副敵攻撃者の進化的生成によるロバスト多エージェント協調
- Authors: Lei Yuan, Zi-Qian Zhang, Ke Xue, Hao Yin, Feng Chen, Cong Guan, Li-He
Li, Chao Qian, Yang Yu
- Abstract要約: 副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
- 参考スコア(独自算出の注目度): 23.15190337027283
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (CMARL) has shown to be
promising for many real-world applications. Previous works mainly focus on
improving coordination ability via solving MARL-specific challenges (e.g.,
non-stationarity, credit assignment, scalability), but ignore the policy
perturbation issue when testing in a different environment. This issue hasn't
been considered in problem formulation or efficient algorithm design. To
address this issue, we firstly model the problem as a limited policy adversary
Dec-POMDP (LPA-Dec-POMDP), where some coordinators from a team might
accidentally and unpredictably encounter a limited number of malicious action
attacks, but the regular coordinators still strive for the intended goal. Then,
we propose Robust Multi-Agent Coordination via Evolutionary Generation of
Auxiliary Adversarial Attackers (ROMANCE), which enables the trained policy to
encounter diversified and strong auxiliary adversarial attacks during training,
thus achieving high robustness under various policy perturbations. Concretely,
to avoid the ego-system overfitting to a specific attacker, we maintain a set
of attackers, which is optimized to guarantee the attackers high attacking
quality and behavior diversity. The goal of quality is to minimize the
ego-system coordination effect, and a novel diversity regularizer based on
sparse action is applied to diversify the behaviors among attackers. The
ego-system is then paired with a population of attackers selected from the
maintained attacker set, and alternately trained against the constantly
evolving attackers. Extensive experiments on multiple scenarios from SMAC
indicate our ROMANCE provides comparable or better robustness and
generalization ability than other baselines.
- Abstract(参考訳): 協調型マルチエージェント強化学習(CMARL)は多くの実世界の応用に有望であることが示されている。
これまでの研究は主に、MARL固有の課題(例えば、非定常性、クレジット割り当て、スケーラビリティ)を解決することで調整能力の改善に重点を置いていたが、異なる環境でのテストではポリシーの摂動問題を無視していた。
この問題は問題定式化や効率的なアルゴリズム設計では考慮されていない。
この問題に対処するために,我々はまず,あるチームのコーディネータが誤って,予測不能な数の悪意あるアクション攻撃に遭遇する可能性のある,限定的な政策反対者Dec-POMDP (LPA-Dec-POMDP) としてこの問題をモデル化する。
そこで我々は,訓練中に多種多種多様な補助的敵攻撃に遭遇し,様々な政策摂動下で高いロバスト多エージェントコーディネートを実現するためのROMANCE(Robust Multi-Agent Coordination)を提案する。
具体的には、特定の攻撃者に過度に適合するegoシステムを避けるために、攻撃者の高い攻撃品質と行動の多様性を保証するために最適化された一連の攻撃者を維持する。
品質の目標は、ego-systemコーディネーション効果を最小化することであり、スパースアクションに基づく新しいダイバーシティ・レギュレータを適用して攻撃者間の行動の多様化を図る。
エゴシステムは、維持された攻撃セットから選ばれた攻撃者の集団とペアになり、常に進化している攻撃者に対して交互に訓練される。
SMAC による複数のシナリオに対する大規模な実験により、ROMANCE は他のベースラインと比べて、同等あるいは優れたロバスト性および一般化能力を提供することが示された。
関連論文リスト
- Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-24T14:02:09Z) - Adversarial Attacks on Cooperative Multi-agent Bandits [41.79235070291252]
本研究は,CMA2Bに対する不均質および不均質な環境下での敵攻撃について検討する。
均質な設定では、各エージェントが特定のターゲットアームを$T-o(T)$倍選択し、$o(T)$攻撃コストを$T$ラウンドで発生させる攻撃戦略を提案する。
不均質な環境では、標的アーム攻撃が線形攻撃コストを必要とすることを証明し、少数の標的エージェントの観測のみを操作しながら、最大数のエージェントに線形後悔を強いる攻撃戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T04:03:19Z) - Optimal Cost Constrained Adversarial Attacks For Multiple Agent Systems [6.69087470775851]
分散攻撃エージェントを用いた最適な敵エージェント対エージェント攻撃を行うという問題を定式化する。
そこで本稿では,静的制約付き攻撃-リソース割り当て最適化と動的プログラミングの段階間最適化を組み合わせた最適手法を提案する。
以上の結果から,攻撃エージェントが受ける報酬を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:28:02Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z) - Communication-Robust Multi-Agent Learning by Adaptable Auxiliary
Multi-Agent Adversary Generation [8.376257490773192]
協調型マルチエージェント強化学習(MARL)における協調の促進
我々は,MA3Cと呼ばれるロバスト通信のための多エージェント補助代行生成の適応的手法を提案し,ロバスト通信ベースのポリシーを得る。
論文 参考訳(メタデータ) (2023-05-09T01:29:46Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。