論文の概要: MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by
Mutual Information Regularization
- arxiv url: http://arxiv.org/abs/2310.09833v2
- Date: Tue, 31 Oct 2023 15:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:10:52.892219
- Title: MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by
Mutual Information Regularization
- Title(参考訳): MIR2: 相互情報正規化による頑健な多エージェント強化学習を目指して
- Authors: Simin Li, Ruixiao Xu, Jun Guo, Pu Feng, Jiakai Wang, Aishan Liu,
Yaodong Yang, Xianglong Liu, Weifeng Lv
- Abstract要約: 日常的なシナリオでポリシーを訓練し、相互情報をロバストな正規化として最小化するMIR2を提案する。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対するレジリエンスが高い。
- 参考スコア(独自算出の注目度): 39.53629344559309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust multi-agent reinforcement learning (MARL) necessitates resilience to
uncertain or worst-case actions by unknown allies. Existing max-min
optimization techniques in robust MARL seek to enhance resilience by training
agents against worst-case adversaries, but this becomes intractable as the
number of agents grows, leading to exponentially increasing worst-case
scenarios. Attempts to simplify this complexity often yield overly pessimistic
policies, inadequate robustness across scenarios and high computational
demands. Unlike these approaches, humans naturally learn adaptive and resilient
behaviors without the necessity of preparing for every conceivable worst-case
scenario. Motivated by this, we propose MIR2, which trains policy in routine
scenarios and minimize Mutual Information as Robust Regularization.
Theoretically, we frame robustness as an inference problem and prove that
minimizing mutual information between histories and actions implicitly
maximizes a lower bound on robustness under certain assumptions. Further
analysis reveals that our proposed approach prevents agents from overreacting
to others through an information bottleneck and aligns the policy with a robust
action prior. Empirically, our MIR2 displays even greater resilience against
worst-case adversaries than max-min optimization in StarCraft II, Multi-agent
Mujoco and rendezvous. Our superiority is consistent when deployed in
challenging real-world robot swarm control scenario. See code and demo videos
in Supplementary Materials.
- Abstract(参考訳): 頑健なマルチエージェント強化学習(MARL)は、未知の同盟者による不確実または最悪の行動に対するレジリエンスを必要とする。
強固なmarlにおける既存のmax-min最適化技術は、最悪のケースの敵に対するエージェントのトレーニングによるレジリエンスの向上を目標としているが、エージェントの数が増えると難易度が低下し、最悪のケースシナリオが指数関数的に増加する。
この複雑さを単純化しようとする試みは、しばしば過度に悲観的なポリシー、シナリオ間の堅牢性、高い計算要求をもたらす。
これらのアプローチとは異なり、人間はあらゆる最悪のシナリオに備える必要がない適応的でレジリエントな振る舞いを自然に学習する。
そこで本研究では,日常的なシナリオでポリシーを訓練し,相互情報をロバスト正規化として最小化するMIR2を提案する。
理論的には、ロバスト性は推論問題であり、履歴と行動の間の相互情報の最小化は、特定の仮定の下でロバスト性に対する低い境界を暗黙的に最大化する。
さらに分析した結果,提案手法は情報ボトルネックを通じてエージェントが他者に対して過剰に反応することを防ぐとともに,前もって堅牢な行動とポリシーを整合させる。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対する弾力性が高い。
我々の優位は、実世界のロボット群制御シナリオに挑戦するときに一貫している。
Supplementary Materialsのコードとデモビデオを参照。
関連論文リスト
- Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文 参考訳(メタデータ) (2023-09-10T21:36:38Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。