論文の概要: Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2106.02745v1
- Date: Fri, 4 Jun 2021 22:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:45:46.691402
- Title: Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games
- Title(参考訳): ツープレイヤーゼロサムゲームにおけるマルチエージェントオートキュリキュラの発見
- Authors: Xidong Feng, Oliver Slumbers, Yaodong Yang, Ziyu Wan, Bo Liu, Stephen
McAleer, Ying Wen, Jun Wang
- Abstract要約: 明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
- 参考スコア(独自算出の注目度): 31.97631243571394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When solving two-player zero-sum games, multi-agent reinforcement learning
(MARL) algorithms often create populations of agents where, at each iteration,
a new agent is discovered as the best response to a mixture over the opponent
population. Within such a process, the update rules of "who to compete with"
(i.e., the opponent mixture) and "how to beat them" (i.e., finding best
responses) are underpinned by manually developed game theoretical principles
such as fictitious play and Double Oracle. In this paper we introduce a
framework, LMAC, based on meta-gradient descent that automates the discovery of
the update rule without explicit human design. Specifically, we parameterise
the opponent selection module by neural networks and the best-response module
by optimisation subroutines, and update their parameters solely via interaction
with the game engine, where both players aim to minimise their exploitability.
Surprisingly, even without human design, the discovered MARL algorithms achieve
competitive or even better performance with the state-of-the-art
population-based game solvers (e.g., PSRO) on Games of Skill, differentiable
Lotto, non-transitive Mixture Games, Iterated Matching Pennies, and Kuhn Poker.
Additionally, we show that LMAC is able to generalise from small games to large
games, for example training on Kuhn Poker and outperforming PSRO on Leduc
Poker. Our work inspires a promising future direction to discover general MARL
algorithms solely from data.
- Abstract(参考訳): マルチエージェント強化学習(marl:multi-agent reinforcement learning)アルゴリズムは、2人のプレイヤーによるゼロサムゲームを解く際に、エージェントの集団を生成する。
このようなプロセス内では、「誰が競合するか」(すなわち、対戦相手の混じり合い)と「彼らを打ち負かすか」(すなわち、最良の反応を見つけるか)の更新ルールは、架空のプレイやダブルオラクルのような手作業で開発されたゲーム理論原則によって支えられている。
本稿では,人間設計を明示せずに更新ルールの発見を自動化するメタ段階的な下降に基づくLMACフレームワークを提案する。
具体的には、ニューラルネットワークによる相手選択モジュールと最適化サブルーチンによる最善応答モジュールをパラメータ化し、そのパラメータをゲームエンジンとのインタラクションのみを通じて更新する。
驚いたことに、MARLアルゴリズムは人間のデザインなしでも、最先端の人口ベースのゲームソルバ(例えばPSRO)、差別化可能なロット、非推移的なミキチャーゲーム、反復マッチングペニー、クーンポーカーとの競争またはより優れたパフォーマンスを達成する。
さらに,LMAC は,例えば Kuhn Poker のトレーニングや Leduc Poker のPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
我々の研究は、データのみから一般的なMARLアルゴリズムを発見するための将来的な方向性を刺激する。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Public Information Representation for Adversarial Team Games [31.29335755664997]
対戦チームゲームは、プレイ中にチームメンバーが利用可能な非対称情報の中にあります。
本アルゴリズムは,対戦相手を持つ逐次チームゲームから古典的な2プレイヤーゼロサムゲームに変換する。
この問題のNPハード性のため、結果のパブリックチームゲームは元のゲームよりも指数関数的に大きいかもしれない。
論文 参考訳(メタデータ) (2022-01-25T15:07:12Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。