論文の概要: Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.11824v1
- Date: Mon, 13 Oct 2025 18:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.058431
- Title: Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習におけるロバスト性とレジリエンスに関する実証的研究
- Authors: Simin Li, Zihao Mao, Hanxiao Li, Zonglei Jing, Zhuohang bian, Jun Guo, Li Wang, Zhuoran Han, Ruixiao Xu, Xin Yu, Chengdong Ma, Yuqing Ma, Bo An, Yaodong Yang, Weifeng Lv, Xianglong Liu,
- Abstract要約: 信頼できるマルチエージェント強化学習システムを構築するには、堅牢性を理解する必要がある。
我々は,MARLにおける協調性,堅牢性,レジリエンスを評価するため,82,620以上の実験からなる大規模実験を行った。
- 参考スコア(独自算出の注目度): 37.910012648322265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative Multi-Agent Reinforcement Learning (MARL), it is a common practice to tune hyperparameters in ideal simulated environments to maximize cooperative performance. However, policies tuned for cooperation often fail to maintain robustness and resilience under real-world uncertainties. Building trustworthy MARL systems requires a deep understanding of robustness, which ensures stability under uncertainties, and resilience, the ability to recover from disruptions--a concept extensively studied in control systems but largely overlooked in MARL. In this paper, we present a large-scale empirical study comprising over 82,620 experiments to evaluate cooperation, robustness, and resilience in MARL across 4 real-world environments, 13 uncertainty types, and 15 hyperparameters. Our key findings are: (1) Under mild uncertainty, optimizing cooperation improves robustness and resilience, but this link weakens as perturbations intensify. Robustness and resilience also varies by algorithm and uncertainty type. (2) Robustness and resilience do not generalize across uncertainty modalities or agent scopes: policies robust to action noise for all agents may fail under observation noise on a single agent. (3) Hyperparameter tuning is critical for trustworthy MARL: surprisingly, standard practices like parameter sharing, GAE, and PopArt can hurt robustness, while early stopping, high critic learning rates, and Leaky ReLU consistently help. By optimizing hyperparameters only, we observe substantial improvement in cooperation, robustness and resilience across all MARL backbones, with the phenomenon also generalizing to robust MARL methods across these backbones. Code and results available at https://github.com/BUAA-TrustworthyMARL/adv_marl_benchmark .
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)では、理想的なシミュレーション環境でハイパーパラメータを調整し、協調的な性能を最大化することが一般的である。
しかし、協力のために調整された政策は、現実の不確実性の下で堅牢性とレジリエンスを維持するのに失敗することが多い。
信頼できるMARLシステムを構築するには、不確実性の下での安定性を保証する堅牢性と、破壊から回復できるレジリエンスの深い理解が必要です。
本稿では,4つの実環境,13の不確実性,15のハイパーパラメータにおけるMARLの協調性,堅牢性,レジリエンスを評価するため,82,620以上の実験からなる大規模実験を行った。
1) 緩やかな不確実性の下では, 協調最適化は堅牢性とレジリエンスを向上するが, 摂動が増大するにつれてリンクが弱まる。
ロバスト性やレジリエンスもアルゴリズムや不確実性によって異なる。
2) 不確実性やエージェントの範囲でロバスト性やレジリエンスは一般化されない:全てのエージェントに対するアクションノイズに頑健なポリシーは、単一のエージェントの観測ノイズの下で失敗する可能性がある。
意外なことに、パラメータ共有、GAE、PopArtといった標準プラクティスは、早期停止、高い批判的学習率、Leaky ReLUが一貫して役に立つ一方で、堅牢性を損なう可能性がある。
ハイパーパラメータのみを最適化することにより、すべてのMARLバックボーンの協調性、堅牢性、レジリエンスが大幅に向上し、これらのバックボーンにまたがるロバストなMARL法にも一般化される。
コードと結果はhttps://github.com/BUAA-TrustworthyMARL/adv_marl_benchmarkで公開されている。
関連論文リスト
- Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Adaptive Pruning with Module Robustness Sensitivity: Balancing Compression and Robustness [7.742297876120561]
本稿では, 対向摂動に対する層次感度を定量化する新しい計量法であるModule Robustness Sensitivity (MRS)を紹介する。
本稿では,任意の対向学習法に適合する適応型プルーニングアルゴリズムであるModule Robust Pruning and Fine-Tuning (MRPF)を提案する。
論文 参考訳(メタデータ) (2024-10-19T18:35:52Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。