論文の概要: MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.08244v1
- Date: Sat, 17 Sep 2022 04:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:56:29.018381
- Title: MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning
- Title(参考訳): ma2ql:完全分散マルチエージェント強化学習への最小主義的アプローチ
- Authors: Kefan Su, Siyuan Zhou, Chuang Gan, Xiangjun Wang, Zongqing Lu
- Abstract要約: テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 63.46052494151171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized learning has shown great promise for cooperative multi-agent
reinforcement learning (MARL). However, non-stationarity remains a significant
challenge in decentralized learning. In the paper, we tackle the
non-stationarity problem in the simplest and fundamental way and propose
\textit{multi-agent alternate Q-learning} (MA2QL), where agents take turns to
update their Q-functions by Q-learning. MA2QL is a \textit{minimalist} approach
to fully decentralized cooperative MARL but is theoretically grounded. We prove
that when each agent guarantees a $\varepsilon$-convergence at each turn, their
joint policy converges to a Nash equilibrium. In practice, MA2QL only requires
minimal changes to independent Q-learning (IQL). We empirically evaluate MA2QL
on a variety of cooperative multi-agent tasks. Results show MA2QL consistently
outperforms IQL, which verifies the effectiveness of MA2QL, despite such
minimal changes.
- Abstract(参考訳): 分散学習は協調型マルチエージェント強化学習 (MARL) に大きく貢献している。
しかし、非定常性は分散学習において重要な課題である。
本稿では,非定常性問題を最も単純かつ基本的な方法で解決し,エージェントが交互にQ関数を更新する「textit{multi-agent alternate Q-learning} (MA2QL)」を提案する。
ma2qlは完全な分散協調marlに対する \textit{minimalist}アプローチだが、理論的には根拠がある。
各エージェントが各ターンで$\varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
実際には、MA2QLは独立したQラーニング(IQL)への最小限の変更しか必要としない。
我々は様々な協調型マルチエージェントタスクでMA2QLを経験的に評価する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
関連論文リスト
- MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation [1.770056709115081]
移動エージェント(英: moving Agents in Formation、MAiF)は、マルチエージェントパスファインディングの変種である。
MFC-EQは、この双方向マルチエージェント問題に対するスケーラブルで適応可能な学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-15T20:59:47Z) - Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems [0.0]
TransfQMixは、トランスフォーマーを使用して潜在グラフ構造を活用し、より良いコーディネーションポリシーを学習する新しいアプローチである。
我々の変換器Q-mixerは、エージェントの内部状態と外部状態を含む大きなグラフから単調混合関数を学習する。
本稿では,TransfQMixのSpreadおよびStarCraft II環境における性能について報告する。
論文 参考訳(メタデータ) (2023-01-13T00:07:08Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Q-Learning Lagrange Policies for Multi-Action Restless Bandits [35.022322303796216]
RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。
我々は,ラグランジアン緩和とQラーニングを組み合わせて,Multi-action RMABをオンラインで学習するための最初のアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-06-22T19:20:09Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。