論文の概要: JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player
Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2308.04719v1
- Date: Wed, 9 Aug 2023 05:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:02:01.434566
- Title: JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player
Zero-Sum Games
- Title(参考訳): JiangJun: 2プレーヤーゼロサムゲームにおける非遷移性に対処してXiangqiをマスターする
- Authors: Yang Li and Kun Xiong and Yingping Zhang and Jiangcheng Zhu and
Stephen Mcaleer and Wei Pan and Jun Wang and Zonghong Dai and Yaodong Yang
- Abstract要約: 本論文は,チェスや将具に匹敵するゲームツリーに匹敵する,中国の伝統的なボードゲームであるXiangqiに焦点を当てる。
我々は,モンテカルロ木探索 (MCTS) と政策空間応答オラクル (PSRO) の革新的な組み合わせであるジアンジュンアルゴリズムを導入し,ナッシュ均衡を近似した。
WeChatのミニプログラムを用いてアルゴリズムを実証的に評価し、人間プレイヤーに対する99.41%の勝利率でマスターレベルを達成する。
- 参考スコア(独自算出の注目度): 15.500508239382583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an empirical exploration of non-transitivity in
perfect-information games, specifically focusing on Xiangqi, a traditional
Chinese board game comparable in game-tree complexity to chess and shogi. By
analyzing over 10,000 records of human Xiangqi play, we highlight the existence
of both transitive and non-transitive elements within the game's strategic
structure. To address non-transitivity, we introduce the JiangJun algorithm, an
innovative combination of Monte-Carlo Tree Search (MCTS) and Policy Space
Response Oracles (PSRO) designed to approximate a Nash equilibrium. We evaluate
the algorithm empirically using a WeChat mini program and achieve a Master
level with a 99.41\% win rate against human players. The algorithm's
effectiveness in overcoming non-transitivity is confirmed by a plethora of
metrics, such as relative population performance and visualization results. Our
project site is available at
\url{https://sites.google.com/view/jiangjun-site/}.
- Abstract(参考訳): 本稿では,完全情報ゲームにおける非推移性について,特にチェスや将技に匹敵するゲームツリー複雑性に匹敵する中国の伝統的なボードゲームであるxiangqiに着目した経験的探索を行う。
人間のXiangqiプレイの1万以上のレコードを分析して、ゲーム戦略構造における推移的要素と非推移的要素の両方の存在を強調する。
非遷移性に対処するために,ナッシュ均衡を近似するために設計されたモンテカルロ木探索 (MCTS) とポリシー空間応答オラクル (PSRO) の革新的な組み合わせであるjiangJunアルゴリズムを導入する。
WeChatミニプログラムを用いてアルゴリズムを実証的に評価し,人間プレイヤーに対する99.41\%の勝利率でマスターレベルを達成する。
このアルゴリズムの有効性は、相対的な集団性能や可視化結果など、多くの指標によって確認されている。
私たちのプロジェクトサイトは \url{https://sites.google.com/view/jiangjun-site/} で利用可能です。
関連論文リスト
- Tree Search for Simultaneous Move Games via Equilibrium Approximation [13.89302587642183]
同時移動ゲームのクラスについて検討する。
どちらのエージェントも、相手の動き以外はゲーム状態を知っている。
本研究では,完全な情報設定から自己プレイを通じて学習した木探索アルゴリズムを,パフォーマンスを著しく損なうことなく同時移動ゲームに適応させることができるか?
論文 参考訳(メタデータ) (2024-06-14T21:02:35Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - On the complexity of Dark Chinese Chess [5.019685897194575]
ダーク・チャイニーズ・チェスはボードゲームとカードゲームでもっとも複雑な要素を組み合わせている。
本報告では,暗黒中国チェスのゲームにおける複雑性解析について述べる。
論文 参考訳(メタデータ) (2021-12-06T13:08:53Z) - Measuring the Non-Transitivity in Chess [19.618609913302855]
我々は、人間のプレイヤーの実際のデータを通してチェスの非透過性を定量化する。
非透過性の度合いとチェス選手のレーティングの進行との間には強いつながりがある。
論文 参考訳(メタデータ) (2021-10-22T12:15:42Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Computing Nash Equilibria in Multiplayer DAG-Structured Stochastic Games
with Persistent Imperfect Information [1.7132914341329848]
永続的不完全情報を持つマルチプレイヤー汎用ゲームにおいて,ナッシュ均衡を近似するアルゴリズムを提案する。
新たな手法を用いることで,本ゲームにおけるナッシュ均衡を近似した戦略をアルゴリズムで計算できることが証明できる。
論文 参考訳(メタデータ) (2020-10-26T19:27:26Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。