論文の概要: Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning
- arxiv url: http://arxiv.org/abs/2310.04796v1
- Date: Sat, 7 Oct 2023 13:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:37:44.337604
- Title: Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning
- Title(参考訳): サブゲームカリキュラム学習によるゼロサムゲームにおけるマルチエージェント強化学習の高速化
- Authors: Jiayu Chen, Zelai Xu, Yunfei Li, Chao Yu, Jiaming Song, Huazhong Yang,
Fei Fang, Yu Wang, Yi Wu
- Abstract要約: ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
- 参考スコア(独自算出の注目度): 65.36326734799587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning Nash equilibrium (NE) in complex zero-sum games with multi-agent
reinforcement learning (MARL) can be extremely computationally expensive.
Curriculum learning is an effective way to accelerate learning, but an
under-explored dimension for generating a curriculum is the difficulty-to-learn
of the subgames -- games induced by starting from a specific state. In this
work, we present a novel subgame curriculum learning framework for zero-sum
games. It adopts an adaptive initial state distribution by resetting agents to
some previously visited states where they can quickly learn to improve
performance. Building upon this framework, we derive a subgame selection metric
that approximates the squared distance to NE values and further adopt a
particle-based state sampler for subgame generation. Integrating these
techniques leads to our new algorithm, Subgame Automatic Curriculum Learning
(SACL), which is a realization of the subgame curriculum learning framework.
SACL can be combined with any MARL algorithm such as MAPPO. Experiments in the
particle-world environment and Google Research Football environment show SACL
produces much stronger policies than baselines. In the challenging
hide-and-seek quadrant environment, SACL produces all four emergent stages and
uses only half the samples of MAPPO with self-play. The project website is at
https://sites.google.com/view/sacl-rl.
- Abstract(参考訳): 多エージェント強化学習(MARL)を用いた複雑なゼロサムゲームにおけるナッシュ均衡(NE)の学習は,計算コストが極めて高い。
カリキュラム学習は学習を加速する効果的な方法であるが、カリキュラムを生成するための未探索の次元は、特定の状態から始めることで引き起こされるサブゲームの難易度である。
本稿では,ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前訪問したいくつかの状態にリセットすることで適応的な初期状態分布を採用し、素早くパフォーマンスを改善することができる。
この枠組みに基づいて,二乗距離からne値に近似したサブゲーム選択メトリックを導出し,さらにサブゲーム生成のための粒子ベースの状態サンプリング器を採用する。
これらのテクニックを統合することで,サブゲームカリキュラム学習フレームワークの実現を目指す,新たなアルゴリズムであるサブゲーム自動カリキュラム学習(sacl)が実現される。
SACLはMAPPOのような任意のMARLアルゴリズムと組み合わせることができる。
粒子世界の環境とGoogle Research Football環境の実験では、SACLはベースラインよりもはるかに強力なポリシーを生み出している。
挑戦的な隠れて見る四角い環境では、saclは4つの創発的なステージを全て生成し、mappoのサンプルの半分だけをセルフプレイで使用する。
プロジェクトのwebサイトはhttps://sites.google.com/view/sacl-rlにある。
関連論文リスト
- Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning [4.698846136465861]
我々はテキストベースの環境にソフト・アクター・クリティック(SAC)アルゴリズムを適用する。
報酬形成技術は、エージェントがポリシーをより早く学習し、より高いスコアを得るのに役立つことを示す。
論文 参考訳(メタデータ) (2023-02-21T15:16:12Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Meta Automatic Curriculum Learning [35.13646854355393]
メタACLの概念を導入し,それをブラックボックスRL学習者の文脈で形式化する。
本稿では,メタACLの初回インスタンス化であるAGAINについて述べる。
論文 参考訳(メタデータ) (2020-11-16T14:56:42Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。