論文の概要: Efficient Learning in Chinese Checkers: Comparing Parameter Sharing in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.18733v1
- Date: Wed, 29 May 2024 03:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:58:09.534455
- Title: Efficient Learning in Chinese Checkers: Comparing Parameter Sharing in Multi-Agent Reinforcement Learning
- Title(参考訳): 中国のチェッカーにおける効率的な学習--マルチエージェント強化学習におけるパラメータ共有の比較
- Authors: Noah Adhikari, Allen Gu,
- Abstract要約: マルチエージェント強化学習は,中国チェッカーの競争ゲームにおいて,独立した部分的共有アーキテクチャよりも優れていることを示す。
実験を行うため、可変サイズ6プレーヤチャイナチェッカーという新しいMARL環境を開発した。
これは私たちの知る限りでは、真のゲームに忠実な中国のチェッカーの最初の実装です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We show that multi-agent reinforcement learning (MARL) with full parameter sharing outperforms independent and partially shared architectures in the competitive perfect-information homogenous game of Chinese Checkers. To run our experiments, we develop a new MARL environment: variable-size, six-player Chinese Checkers. This custom environment was developed in PettingZoo and supports all traditional rules of the game including chaining jumps. This is, to the best of our knowledge, the first implementation of Chinese Checkers that remains faithful to the true game. Chinese Checkers is difficult to learn due to its large branching factor and potentially infinite horizons. We borrow the concept of branching actions (submoves) from complex action spaces in other RL domains, where a submove may not end a player's turn immediately. This drastically reduces the dimensionality of the action space. Our observation space is inspired by AlphaGo with many binary game boards stacked in a 3D array to encode information. The PettingZoo environment, training and evaluation logic, and analysis scripts can be found on \href{https://github.com/noahadhikari/pettingzoo-chinese-checkers}{Github}.
- Abstract(参考訳): 完全パラメータ共有型マルチエージェント強化学習(MARL)は,中国チェッカーの完全情報同種競争において,独立した部分共有アーキテクチャよりも優れることを示す。
実験を行うため、可変サイズ6プレーヤチャイナチェッカーという新しいMARL環境を開発した。
このカスタム環境はPettingZooで開発され、チェリングジャンプを含むゲームの伝統的なルールをすべてサポートしている。
これは私たちの知る限りでは、真のゲームに忠実な中国のチェッカーの最初の実装です。
中国のチェッカーは、その大きな分岐係数と潜在的に無限の地平線のために学ぶのが難しい。
我々は、他のRLドメインの複雑なアクション空間から分岐アクション(サブムーブ)の概念を借用する。
これにより、作用空間の次元が大幅に減少する。
我々の観測空間はAlphaGoにインスパイアされ、情報を符号化するために多くのバイナリゲームボードを3Dアレーに積み重ねている。
PettingZoo環境、トレーニングおよび評価ロジック、分析スクリプトは、 \href{https://github.com/noahadhikari/pettingzoo-chinese-checkers}{Github}で見ることができる。
関連論文リスト
- Autoverse: An Evolvable Game Langugage for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player
Zero-Sum Games [15.500508239382583]
本論文は,チェスや将具に匹敵するゲームツリーに匹敵する,中国の伝統的なボードゲームであるXiangqiに焦点を当てる。
我々は,モンテカルロ木探索 (MCTS) と政策空間応答オラクル (PSRO) の革新的な組み合わせであるジアンジュンアルゴリズムを導入し,ナッシュ均衡を近似した。
WeChatのミニプログラムを用いてアルゴリズムを実証的に評価し、人間プレイヤーに対する99.41%の勝利率でマスターレベルを達成する。
論文 参考訳(メタデータ) (2023-08-09T05:48:58Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Centralized control for multi-agent RL in a complex Real-Time-Strategy
game [0.0]
マルチエージェント強化学習(MARL)は、共有環境で共存する複数の学習エージェントの行動を研究する。
MARLはシングルエージェントRLよりも難しい。
このプロジェクトは、Lux AI v2 KaggleコンペティションにRLを適用したエンドツーエンドエクスペリエンスを提供する。
論文 参考訳(メタデータ) (2023-04-25T17:19:05Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。