論文の概要: MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by
Mutual Information Regularization
- arxiv url: http://arxiv.org/abs/2310.09833v2
- Date: Tue, 31 Oct 2023 15:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:10:52.892219
- Title: MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by
Mutual Information Regularization
- Title(参考訳): MIR2: 相互情報正規化による頑健な多エージェント強化学習を目指して
- Authors: Simin Li, Ruixiao Xu, Jun Guo, Pu Feng, Jiakai Wang, Aishan Liu,
Yaodong Yang, Xianglong Liu, Weifeng Lv
- Abstract要約: 日常的なシナリオでポリシーを訓練し、相互情報をロバストな正規化として最小化するMIR2を提案する。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対するレジリエンスが高い。
- 参考スコア(独自算出の注目度): 39.53629344559309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust multi-agent reinforcement learning (MARL) necessitates resilience to
uncertain or worst-case actions by unknown allies. Existing max-min
optimization techniques in robust MARL seek to enhance resilience by training
agents against worst-case adversaries, but this becomes intractable as the
number of agents grows, leading to exponentially increasing worst-case
scenarios. Attempts to simplify this complexity often yield overly pessimistic
policies, inadequate robustness across scenarios and high computational
demands. Unlike these approaches, humans naturally learn adaptive and resilient
behaviors without the necessity of preparing for every conceivable worst-case
scenario. Motivated by this, we propose MIR2, which trains policy in routine
scenarios and minimize Mutual Information as Robust Regularization.
Theoretically, we frame robustness as an inference problem and prove that
minimizing mutual information between histories and actions implicitly
maximizes a lower bound on robustness under certain assumptions. Further
analysis reveals that our proposed approach prevents agents from overreacting
to others through an information bottleneck and aligns the policy with a robust
action prior. Empirically, our MIR2 displays even greater resilience against
worst-case adversaries than max-min optimization in StarCraft II, Multi-agent
Mujoco and rendezvous. Our superiority is consistent when deployed in
challenging real-world robot swarm control scenario. See code and demo videos
in Supplementary Materials.
- Abstract(参考訳): 頑健なマルチエージェント強化学習(MARL)は、未知の同盟者による不確実または最悪の行動に対するレジリエンスを必要とする。
強固なmarlにおける既存のmax-min最適化技術は、最悪のケースの敵に対するエージェントのトレーニングによるレジリエンスの向上を目標としているが、エージェントの数が増えると難易度が低下し、最悪のケースシナリオが指数関数的に増加する。
この複雑さを単純化しようとする試みは、しばしば過度に悲観的なポリシー、シナリオ間の堅牢性、高い計算要求をもたらす。
これらのアプローチとは異なり、人間はあらゆる最悪のシナリオに備える必要がない適応的でレジリエントな振る舞いを自然に学習する。
そこで本研究では,日常的なシナリオでポリシーを訓練し,相互情報をロバスト正規化として最小化するMIR2を提案する。
理論的には、ロバスト性は推論問題であり、履歴と行動の間の相互情報の最小化は、特定の仮定の下でロバスト性に対する低い境界を暗黙的に最大化する。
さらに分析した結果,提案手法は情報ボトルネックを通じてエージェントが他者に対して過剰に反応することを防ぐとともに,前もって堅牢な行動とポリシーを整合させる。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対する弾力性が高い。
我々の優位は、実世界のロボット群制御シナリオに挑戦するときに一貫している。
Supplementary Materialsのコードとデモビデオを参照。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文 参考訳(メタデータ) (2020-06-17T01:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。