論文の概要: Certified Policy Smoothing for Cooperative Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2212.11746v1
- Date: Thu, 22 Dec 2022 14:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:31:38.583893
- Title: Certified Policy Smoothing for Cooperative Multi-Agent Reinforcement
Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための認証ポリシー平滑化
- Authors: Ronghui Mu, Wenjie Ruan, Leandro Soriano Marcolino, Gaojie Jin, Qiang
Ni
- Abstract要約: 保証された認証境界を持つ動作を決定するために,c-MARLの新たな認証手法を提案する。
我々は、我々の認証境界が最先端のRL認証ソリューションよりもはるかに厳密であることを実証的に示す。
本手法は,すべてのモデルと環境に対して有意義なロバスト性を実現する。
- 参考スコア(独自算出の注目度): 17.957644784944755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (c-MARL) is widely applied in
safety-critical scenarios, thus the analysis of robustness for c-MARL models is
profoundly important. However, robustness certification for c-MARLs has not yet
been explored in the community. In this paper, we propose a novel certification
method, which is the first work to leverage a scalable approach for c-MARLs to
determine actions with guaranteed certified bounds. c-MARL certification poses
two key challenges compared with single-agent systems: (i) the accumulated
uncertainty as the number of agents increases; (ii) the potential lack of
impact when changing the action of a single agent into a global team reward.
These challenges prevent us from directly using existing algorithms. Hence, we
employ the false discovery rate (FDR) controlling procedure considering the
importance of each agent to certify per-state robustness and propose a
tree-search-based algorithm to find a lower bound of the global reward under
the minimal certified perturbation. As our method is general, it can also be
applied in single-agent environments. We empirically show that our
certification bounds are much tighter than state-of-the-art RL certification
solutions. We also run experiments on two popular c-MARL algorithms: QMIX and
VDN, in two different environments, with two and four agents. The experimental
results show that our method produces meaningful guaranteed robustness for all
models and environments. Our tool CertifyCMARL is available at
https://github.com/TrustAI/CertifyCMA
- Abstract(参考訳): 協調型マルチエージェント強化学習(c-MARL)は安全クリティカルなシナリオに広く適用されており,c-MARLモデルのロバスト性の解析が極めて重要である。
しかし、c-MARLのロバスト性認証はまだコミュニティで検討されていない。
本稿では,C-MARLのスケーラブルなアプローチを活用し,保証された認証境界での動作を決定するための新しい認証手法を提案する。
c-MARL認証は、シングルエージェントシステムと比較して2つの重要な課題を提起する。
i) エージェントの数が増加するにつれて蓄積された不確実性
(ii)一つのエージェントのアクションをグローバルなチーム報酬に変える場合の潜在的影響の欠如。
これらの課題は、既存のアルゴリズムを直接使用することを妨げる。
そこで我々は,各エージェントが国家ごとのロバスト性を証明することの重要性を考慮した偽発見率(FDR)制御手法を採用し,最小限の摂動条件下でグローバル報酬の下位境界を求める木探索に基づくアルゴリズムを提案する。
本手法は一般に,単一エージェント環境においても適用可能である。
我々は、我々の認証境界が最先端のRL認証ソリューションよりもはるかに厳密であることを実証的に示す。
また、人気のあるc-marlアルゴリズムであるqmixとvdnの2つの異なる環境で、2つと4つのエージェントを使った実験も行っています。
実験結果から,本手法はすべてのモデルと環境に対して有意なロバスト性をもたらすことが示された。
私たちのツールCertifyCMARLはhttps://github.com/TrustAI/CertifyCMAで利用可能です。
関連論文リスト
- Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [47.652866966384586]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
本稿では,これらの問題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Heterogeneous-Agent Reinforcement Learning [16.796016254366524]
ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受することを証明する。
論文 参考訳(メタデータ) (2023-04-19T05:08:02Z) - Towards Comprehensive Testing on the Robustness of Cooperative
Multi-agent Reinforcement Learning [10.132303690998523]
c-MARLアルゴリズムが実際にデプロイされる前に、ロバスト性をテストすることが重要である。
MARLの既存の敵攻撃はテストに使用できるが、1つの堅牢性に制限されている。
我々は,c-MARLアルゴリズムの最初のロバストネステストフレームワークであるMARLSafeを提案する。
論文 参考訳(メタデータ) (2022-04-17T05:15:51Z) - COPA: Certifying Robust Policies for Offline Reinforcement Learning
against Poisoning Attacks [49.15885037760725]
本研究は, 中毒発生時におけるオフライン強化学習(RL)の堅牢性を検証することに注力する。
本報告では, 許容可能な毒素トラジェクトリの数を認証する最初の認証フレームワークであるCOPAを提案する。
提案手法のいくつかは理論的に厳密であり,一部はNP-Complete問題であることを示す。
論文 参考訳(メタデータ) (2022-03-16T05:02:47Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。