論文の概要: CFR-p: Counterfactual Regret Minimization with Hierarchical Policy
Abstraction, and its Application to Two-player Mahjong
- arxiv url: http://arxiv.org/abs/2307.12087v1
- Date: Sat, 22 Jul 2023 14:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:57:59.816582
- Title: CFR-p: Counterfactual Regret Minimization with Hierarchical Policy
Abstraction, and its Application to Two-player Mahjong
- Title(参考訳): CFR-p:階層的政策抽象化によるファクトファクトリグレスト最小化とその2人マヒョンへの適用
- Authors: Shiheng Wang
- Abstract要約: ゲーム理論解析を行い、勝利ポリシーに基づいてCFRに階層的な抽象化を施すことにより、2人のプレイヤー・マヒョンについて研究する。
このフレームワークは、他の不完全な情報ゲームに一般化することができる。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual Regret Minimization(CFR) has shown its success in Texas
Hold'em poker. We apply this algorithm to another popular incomplete
information game, Mahjong. Compared to the poker game, Mahjong is much more
complex with many variants. We study two-player Mahjong by conducting game
theoretical analysis and making a hierarchical abstraction to CFR based on
winning policies. This framework can be generalized to other imperfect
information games.
- Abstract(参考訳): Counterfactual Regret Minimization (CFR) はテキサス・ホールディングス・ポーカーで成功している。
我々はこのアルゴリズムをもう一つの不完全情報ゲームであるMahjongに適用する。
ポーカーゲームと比較して、Mahjongは多くの変種と非常に複雑である。
本研究は,ゲーム理論解析を行い,cfrに階層的抽象化を行うことにより,2人のマホンを学習する。
このフレームワークは他の不完全な情報ゲームに一般化することができる。
関連論文リスト
- A Survey on Game Theory Optimal Poker [0.0]
現在までに不完全な情報ゲームは解決されていない。
これにより、ポーカーは人工知能研究にとって素晴らしいテストベッドとなる。
本稿では,ポーカーボットの成功にともなう抽象化手法,ベッティングモデル,具体的な戦略について論じる。
論文 参考訳(メタデータ) (2024-01-02T04:19:25Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Principal Trade-off Analysis [79.16635054977068]
低次元特徴空間にゲームを埋め込む分解法であるPTA(Principal Trade-off Analysis)を示す。
PTAは2次元特徴平面の対の重み付け和として任意の2-player 0-sumゲームを表す。
ゲーム四重奏におけるPTAの有効性を示す(Kuhn poker, RPS+2, Blotto, Pokemon)。
論文 参考訳(メタデータ) (2022-06-09T18:16:28Z) - A Fast Algorithm for Computing the Deficiency Number of a Mahjong Hand [13.48957726008272]
タイルベースのマルチプレイヤーゲーム「Mahjong」はアジアで広くプレイされており、世界中で人気が高まっている。
マヒョンの重要な概念は、手の不備数(すなわち、マヒョンにおけるシャンテン数)であり、勝手を完成させるためにどれだけのタイル変更が必要かを推定するものである。
本稿では,Mahjongハンドの不足数を高速に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-15T22:44:14Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games [0.0]
本稿では,Terra Mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索し,比較する。
これらのブレークスルーをTMの新しい状態表現に適用し、人間のプレイヤーに匹敵するAIを作ることを目指しています。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
論文 参考訳(メタデータ) (2021-02-21T07:53:34Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。