論文の概要: Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization
- arxiv url: http://arxiv.org/abs/2310.09833v3
- Date: Tue, 21 May 2024 15:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 19:10:52.876963
- Title: Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization
- Title(参考訳): 相互情報正規化によるロバストなマルチエージェント強化学習
- Authors: Simin Li, Ruixiao Xu, Jingqiao Xiu, Yuwei Zheng, Pu Feng, Yaodong Yang, Xianglong Liu,
- Abstract要約: 既存の堅牢なMARL手法は、最悪の敵に対する全ての脅威シナリオを近似または列挙する。
我々は、全ての脅威シナリオにおいて、最悪の場合のロバストネスを暗黙的に最適化した、ロバストなMARLを推論問題とする。
このフレームワーク内では、ルーチントレーニング中のロバスト正規化(MIR3)としての相互情報正規化が、ロバスト性の低い境界を最大化することを保証している。
- 参考スコア(独自算出の注目度): 15.11457665677937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning (MARL), ensuring robustness against unpredictable or worst-case actions by allies is crucial for real-world deployment. Existing robust MARL methods either approximate or enumerate all possible threat scenarios against worst-case adversaries, leading to computational intensity and reduced robustness. In contrast, human learning efficiently acquires robust behaviors in daily life without preparing for every possible threat. Inspired by this, we frame robust MARL as an inference problem, with worst-case robustness implicitly optimized under all threat scenarios via off-policy evaluation. Within this framework, we demonstrate that Mutual Information Regularization as Robust Regularization (MIR3) during routine training is guaranteed to maximize a lower bound on robustness, without the need for adversaries. Further insights show that MIR3 acts as an information bottleneck, preventing agents from over-reacting to others and aligning policies with robust action priors. In the presence of worst-case adversaries, our MIR3 significantly surpasses baseline methods in robustness and training efficiency while maintaining cooperative performance in StarCraft II and robot swarm control. When deploying the robot swarm control algorithm in the real world, our method also outperforms the best baseline by 14.29%.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、現実の展開において、同盟国による予測不可能または最悪の行動に対する堅牢性を確保することが重要である。
既存の堅牢なMARL法は、最悪の場合の敵に対する全ての脅威シナリオを近似または列挙し、計算強度とロバスト性を低下させる。
対照的に、人間の学習は、あらゆる脅威に備えることなく、日常生活における堅牢な行動を得る。
このことに触発されて、我々はロバストなMARLを推論問題として定式化し、最悪の場合のロバスト性は、政治外の評価を通じて全ての脅威シナリオ下で暗黙的に最適化される。
本枠組みでは, 相互情報正規化をロバスト正規化(MIR3)として実施することにより, 対戦相手を必要とせずに, 堅牢性の低い境界を最大化できることを実証する。
さらなる洞察は、MIR3が情報のボトルネックとして機能し、エージェントが他人に過剰に反応するのを防ぎ、ポリシーを堅牢なアクション先行と整合することを示しています。
最悪の場合、我々のMIR3は、StarCraft IIとロボット群制御における協調的な性能を維持しながら、ロバストネスとトレーニング効率のベースライン手法をはるかに上回っている。
ロボット群制御アルゴリズムを実世界で展開する場合,本手法は最良基準を14.29%上回っている。
関連論文リスト
- Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文 参考訳(メタデータ) (2023-09-10T21:36:38Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。