論文の概要: Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization
- arxiv url: http://arxiv.org/abs/2308.06741v1
- Date: Sun, 13 Aug 2023 10:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:34:24.222092
- Title: Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization
- Title(参考訳): ミラーディフレッシュポリシー最適化による異種多エージェント強化学習
- Authors: Mohammad Mehdi Nasiri, Mansoor Rezghi
- Abstract要約: 本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するため,ミラー・ダイスン法の拡張を提案する。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を利用する。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスク上でHAMDPOを評価し,最先端のアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.5501208213584152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an extension of the Mirror Descent method to overcome
challenges in cooperative Multi-Agent Reinforcement Learning (MARL) settings,
where agents have varying abilities and individual policies. The proposed
Heterogeneous-Agent Mirror Descent Policy Optimization (HAMDPO) algorithm
utilizes the multi-agent advantage decomposition lemma to enable efficient
policy updates for each agent while ensuring overall performance improvements.
By iteratively updating agent policies through an approximate solution of the
trust-region problem, HAMDPO guarantees stability and improves performance.
Moreover, the HAMDPO algorithm is capable of handling both continuous and
discrete action spaces for heterogeneous agents in various MARL problems. We
evaluate HAMDPO on Multi-Agent MuJoCo and StarCraftII tasks, demonstrating its
superiority over state-of-the-art algorithms such as HATRPO and HAPPO. These
results suggest that HAMDPO is a promising approach for solving cooperative
MARL problems and could potentially be extended to address other challenging
problems in the field of MARL.
- Abstract(参考訳): 本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するミラー・ダイスン法の拡張について述べる。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を用いて,全体的な性能向上を確保しつつ,各エージェントの効率的なポリシー更新を実現する。
信頼領域問題の近似解を通じてエージェントポリシーを反復的に更新することにより、HAMDPOは安定性を保証し、性能を向上させる。
さらに、HAMDPOアルゴリズムは、様々なMARL問題における異種エージェントに対する連続的および離散的な作用空間を処理できる。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスクにおけるHAMDPOの評価を行い,HATRPOやHAPPOといった最先端アルゴリズムよりも優れていることを示す。
これらの結果から,HAMDPOは協調的MARL問題の解決に有望なアプローチであり,MARL分野における他の課題に対処するために拡張できる可能性が示唆された。
関連論文リスト
- Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。
本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。
In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:19:08Z) - Exploring Multi-Agent Reinforcement Learning for Unrelated Parallel Machine Scheduling [2.3034630097498883]
本研究は,強化学習環境を紹介し,実証分析を行う。
実験では、シングルエージェントとマルチエージェントアプローチにさまざまなディープニューラルネットワークポリシーを採用している。
シングルエージェントアルゴリズムは縮小シナリオにおいて適切に機能する一方、マルチエージェントアプローチは協調学習における課題を明らかにするが、スケーラブルな能力を示す。
論文 参考訳(メタデータ) (2024-11-12T08:27:27Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Heterogeneous-Agent Reinforcement Learning [16.796016254366524]
ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。
本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。
HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受することを証明する。
論文 参考訳(メタデータ) (2023-04-19T05:08:02Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。