論文の概要: PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.02635v1
- Date: Tue, 5 Mar 2024 03:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:20:58.615702
- Title: PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of
Multi-Agent Reinforcement Learning
- Title(参考訳): PPS-QMIX:マルチエージェント強化学習の収束促進のための周期的パラメータ共有
- Authors: Ke Zhang, DanDan Zhu, Qiuhan Xu, Hao Zhou and Ce Zheng
- Abstract要約: マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。
1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。
本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
- 参考スコア(独自算出の注目度): 20.746383793882984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training for multi-agent reinforcement learning(MARL) is a time-consuming
process caused by distribution shift of each agent. One drawback is that
strategy of each agent in MARL is independent but actually in cooperation.
Thus, a vertical issue in multi-agent reinforcement learning is how to
efficiently accelerate training process. To address this problem, current
research has leveraged a centralized function(CF) across multiple agents to
learn contribution of the team reward for each agent. However, CF based methods
introduce joint error from other agents in estimation of value network. In so
doing, inspired by federated learning, we propose three simple novel approaches
called Average Periodically Parameter Sharing(A-PPS), Reward-Scalability
Periodically Parameter Sharing(RS-PPS) and Partial Personalized Periodically
Parameter Sharing(PP-PPS) mechanism to accelerate training of MARL. Agents
share Q-value network periodically during the training process. Agents which
has same identity adapt collected reward as scalability and update partial
neural network during period to share different parameters. We apply our
approaches in classical MARL method QMIX and evaluate our approaches on various
tasks in StarCraft Multi-Agent Challenge(SMAC) environment. Performance of
numerical experiments yield enormous enhancement, with an average improvement
of 10\%-30\%, and enable to win tasks that QMIX cannot. Our code can be
downloaded from https://github.com/ColaZhang22/PPS-QMIX
- Abstract(参考訳): マルチエージェント強化学習(MARL)の訓練は、各エージェントの分布シフトによって引き起こされる時間を要するプロセスである。
1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。
したがって、マルチエージェント強化学習における垂直課題は、効率的にトレーニングプロセスを加速する方法である。
この問題に対処するため、現在の研究では、複数のエージェントにまたがる集中型機能(cf)を活用して、各エージェントに対するチーム報酬の貢献を学びました。
しかし、CFに基づく手法は、値ネットワークの推定において他のエージェントとの結合誤差を導入する。
そこで我々は,MARLのトレーニングを加速するために,A-PPS(Average Periodically Parameter Sharing),RS-PPS(Reward-Scalability Periodically Parameter Sharing),PP-PPS(Partial Personalized Periodically Parameter Sharing)という3つの簡単な手法を提案する。
エージェントはトレーニングプロセス中に定期的にQ値ネットワークを共有する。
同じアイデンティティを持つエージェントが収集した報酬をスケーラビリティとして適用し、異なるパラメータを共有する期間に部分ニューラルネットワークを更新する。
従来のMARL手法QMIXにアプローチを適用し,StarCraft Multi-Agent Challenge(SMAC)環境における様々なタスクに対するアプローチを評価する。
数値実験の性能は、平均10\%-30\%の改善により大幅に向上し、QMIXでは不可能なタスクを勝ち取ることができる。
私たちのコードはhttps://github.com/ColaZhang22/PPS-QMIXからダウンロードできます。
関連論文リスト
- MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。