論文の概要: Multi-Agent Diagnostics for Robustness via Illuminated Diversity
- arxiv url: http://arxiv.org/abs/2401.13460v3
- Date: Sun, 03 Nov 2024 21:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:39.141637
- Title: Multi-Agent Diagnostics for Robustness via Illuminated Diversity
- Title(参考訳): 発光ダイバーシティによるロバストネスのマルチエージェント診断
- Authors: Mikayel Samvelyan, Davide Paglieri, Minqi Jiang, Jack Parker-Holder, Tim Rocktäschel,
- Abstract要約: 発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
- 参考スコア(独自算出の注目度): 37.38316542660311
- License:
- Abstract: In the rapidly advancing field of multi-agent systems, ensuring robustness in unfamiliar and adversarial settings is crucial. Notwithstanding their outstanding performance in familiar environments, these systems often falter in new situations due to overfitting during the training phase. This is especially pronounced in settings where both cooperative and competitive behaviours are present, encapsulating a dual nature of overfitting and generalisation challenges. To address this issue, we present Multi-Agent Diagnostics for Robustness via Illuminated Diversity (MADRID), a novel approach for generating diverse adversarial scenarios that expose strategic vulnerabilities in pre-trained multi-agent policies. Leveraging the concepts from open-ended learning, MADRID navigates the vast space of adversarial settings, employing a target policy's regret to gauge the vulnerabilities of these settings. We evaluate the effectiveness of MADRID on the 11vs11 version of Google Research Football, one of the most complex environments for multi-agent reinforcement learning. Specifically, we employ MADRID for generating a diverse array of adversarial settings for TiZero, the state-of-the-art approach which "masters" the game through 45 days of training on a large-scale distributed infrastructure. We expose key shortcomings in TiZero's tactical decision-making, underlining the crucial importance of rigorous evaluation in multi-agent systems.
- Abstract(参考訳): 多エージェントシステムの急速に進歩する分野では、不慣れな環境や敵対的な環境において堅牢性を確保することが不可欠である。
慣れ親しんだ環境での卓越した性能にもかかわらず、これらのシステムはトレーニング期間中に過度に適合するため、しばしば新しい状況で失敗する。
これは、協調行動と競争行動の両方が存在する状況において特に顕著であり、過剰適合と一般化の2つの性質をカプセル化している。
この問題に対処するため、我々は、事前訓練されたマルチエージェントポリシーにおける戦略的脆弱性を露呈する多様な敵シナリオを生成する新しいアプローチである、照度変化によるロバストネスのマルチエージェント診断(MADRID)を提案する。
オープンエンド学習の概念を活用して、MADRIDは敵の設定の広大な空間をナビゲートし、これらの設定の脆弱性を測定するために、ターゲットポリシーの後悔を利用する。
我々はマルチエージェント強化学習における最も複雑な環境の一つであるGoogle Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
具体的には,大規模な分散インフラ上での45日間のトレーニングを通じてゲームを"マスター"する,最先端のアプローチであるTiZeroに対して,多様な敵設定を生成するためにMADRIDを使用する。
マルチエージェントシステムにおける厳密な評価の重要性を浮き彫りにして,TiZeroの戦術的意思決定における重要な欠点を明らかにする。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers [23.15190337027283]
副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
論文 参考訳(メタデータ) (2023-05-10T05:29:47Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems [0.3883460584034765]
そこで本稿では,MADRLをベースとした手法により,達成可能なレート領域の外部境界(パリトバウンダリ)を達成するためのプリコーダを共同で最適化する。
また、無線通信で広く使われている信号の、従来の複雑なベースバンド表現による位相曖昧性の問題にも対処する。
我々の知る限りでは、MA-DDPGフレームワークがプリコーダを協調的に最適化し、達成可能なレート領域のパリトバウンダリを達成できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-10T16:50:45Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment
Mapping [0.0]
異種エージェントのチームが未知の環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。
このタスクは、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全と緊急対応組織に関心を寄せている。
論文 参考訳(メタデータ) (2020-10-06T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。