論文の概要: FM3Q: Factorized Multi-Agent MiniMax Q-Learning for Two-Team Zero-Sum
Markov Game
- arxiv url: http://arxiv.org/abs/2402.00738v1
- Date: Thu, 1 Feb 2024 16:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:39:07.773511
- Title: FM3Q: Factorized Multi-Agent MiniMax Q-Learning for Two-Team Zero-Sum
Markov Game
- Title(参考訳): FM3Q: 2チームゼロサムマルコフゲームのための分解型マルチエージェントミニマックスQラーニング
- Authors: Guangzheng Hu, Yuanheng Zhu, Haoran Li, Dongbin Zhao
- Abstract要約: 2チームゼロサムマルコフゲームは強化学習によって解決できる。
そこで我々は,2チーム間のミニマックスのコヒーレンスを確保するために,IGMM(Personal-global-minimax)の原理を提案する。
2t0sMGのIGMM充足ミニマックスQ関数に対して、関節ミニマックスQ関数を個別に分解し、反復的に解決できるFactized Multi-Agent MiniMax Q-Learning (FM3Q)を提案する。
- 参考スコア(独自算出の注目度): 18.60491190234347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications involve some agents that fall into two teams,
with payoffs that are equal within the same team but of opposite sign across
the opponent team. The so-called two-team zero-sum Markov games (2t0sMGs) can
be resolved with reinforcement learning in recent years. However, existing
methods are thus inefficient in light of insufficient consideration of
intra-team credit assignment, data utilization and computational
intractability. In this paper, we propose the individual-global-minimax (IGMM)
principle to ensure the coherence between two-team minimax behaviors and the
individual greedy behaviors through Q functions in 2t0sMGs. Based on it, we
present a novel multi-agent reinforcement learning framework, Factorized
Multi-Agent MiniMax Q-Learning (FM3Q), which can factorize the joint minimax Q
function into individual ones and iteratively solve for the IGMM-satisfied
minimax Q functions for 2t0sMGs. Moreover, an online learning algorithm with
neural networks is proposed to implement FM3Q and obtain the deterministic and
decentralized minimax policies for two-team players. A theoretical analysis is
provided to prove the convergence of FM3Q. Empirically, we use three
environments to evaluate the learning efficiency and final performance of FM3Q
and show its superiority on 2t0sMGs.
- Abstract(参考訳): 多くの現実世界のアプリケーションには、2つのチームに分かれたエージェントが含まれており、同じチーム内では同等だが、反対のチーム間では反対のサインを持つ。
いわゆる2チームゼロサムマルコフゲーム (2t0sMGs) は近年強化学習によって解決されている。
しかし、既存の手法は、チーム内クレジット割り当て、データ利用、計算の難易度などの考慮が不十分なため、非効率である。
本稿では,2t0sMGにおけるQ関数による2チームミニマックス動作と個別グリージー動作のコヒーレンスを確保するために,IGMM原理を提案する。
そこで本研究では, 統合ミニマックスq関数を個別関数に分解し, 2t0smgsのigmm対応ミニマックスq関数を反復的に解くマルチエージェント強化学習フレームワーク, factorized multi-agent minimax q-learning (fm3q)を提案する。
さらに、ニューラルネットワークを用いたオンライン学習アルゴリズムを提案し、FM3Qを実装し、2チームプレーヤに対して決定論的かつ分散化されたミニマックスポリシーを得る。
FM3Qの収束を証明する理論的解析が提供される。
実験では,FM3Qの学習効率と最終性能を3つの環境を用いて評価し,その優位性を2t0sMGで示す。
関連論文リスト
- Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - The Power of Exploiter: Provable Multi-Agent RL in Large State Spaces [36.097537237660234]
そこで本研究では,多くのサンプルを用いてナッシュ均衡政策を立証可能なアルゴリズムを提案する。
新しいアルゴリズムの重要な要素はエクスプローラーであり、彼女の弱点を意図的に活用することで、メインプレイヤーの学習を容易にする。
我々の理論フレームワークは汎用的であり、MG、線形あるいはカーネル関数近似のMG、リッチな観測のMGなど、幅広いモデルに適用できる。
論文 参考訳(メタデータ) (2021-06-07T05:39:09Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - QPLEX: Duplex Dueling Multi-Agent Q-Learning [31.402074624147822]
我々は、分散実行型集中訓練(CTDE)の一般的なパラダイムにおける価値に基づくマルチエージェント強化学習(MARL)について検討する。
既存のMARLメソッドは、値関数クラスの表現を制限するか、パーソナライズ・グローバル・マックス(IGM)の原理を緩和する。
本稿では,DuPlexによるマルチエージェントQ-ラーニングについて述べる。
論文 参考訳(メタデータ) (2020-08-03T17:52:09Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。