論文の概要: Solving Pasur Using GPU-Accelerated Counterfactual Regret Minimization
- arxiv url: http://arxiv.org/abs/2508.06559v1
- Date: Wed, 06 Aug 2025 15:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.438229
- Title: Solving Pasur Using GPU-Accelerated Counterfactual Regret Minimization
- Title(参考訳): GPU加速逆レギュレット最小化によるパサーの解法
- Authors: Sina Baghal,
- Abstract要約: パサール(Pasur)は、6ラウンドにわたる釣りカードゲームである。
我々は,非現実的レギュレット最小化によるニアナッシュ均衡の計算に,我々のフレームワークを使用している。
ゲームツリーを実際のゲーム状態と前のラウンドのスコアの2つのキーコンポーネントに分解する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pasur is a fishing card game played over six rounds and is played similarly to games such as Cassino and Scopa, and Bastra. This paper introduces a CUDA-accelerated computational framework for simulating Pasur, emphasizing efficient memory management. We use our framework to compute near-Nash equilibria via Counterfactual Regret Minimization (CFR), a well-known algorithm for solving large imperfect-information games. Solving Pasur presents unique challenges due to its intricate rules and the large size of its game tree. We handle rule complexity using PyTorch CUDA tensors and to address the memory-intensive nature of the game, we decompose the game tree into two key components: (1) actual game states, and (2) inherited scores from previous rounds. We construct the Full Game Tree by pairing card states with accumulated scores in the Unfolding Process. This design reduces memory overhead by storing only essential strategy values and node connections. To further manage computational complexity, we apply a round-by-round backward training strategy, starting from the final round and recursively propagating average utilities to earlier stages. Our approach constructs the complete game tree, which on average consists of over $10^9$ nodes. We provide detailed implementation snippets. After computing a near-Nash equilibrium strategy, we train a tree-based model to predict these strategies for use during gameplay. We then estimate the fair value of each deck through large-scale self-play between equilibrium strategies by simulating, for instance, 10,000 games per matchup, executed in parallel using GPU acceleration. Similar frameworks can be extended to other reinforcement learning algorithms where the action tree naturally decomposes into multiple rounds such as turn-based strategy games or sequential trading decisions in financial markets.
- Abstract(参考訳): パサール(Pasur)は、カシーノ、スコパ、バストラといった6ラウンドにわたる釣りカードゲームである。
本稿では,Pasurをシミュレーションし,効率的なメモリ管理を実現するためのCUDA加速計算フレームワークを提案する。
我々は、大規模な不完全情報ゲームを解決するためのよく知られたアルゴリズムであるCFR(Counterfactual Regret Minimization)を用いて、我々のフレームワークを用いてニアナッシュ均衡を計算する。
ソルヴィング・パサールはその複雑なルールとゲームツリーの大きさのためにユニークな課題を提示する。
我々はPyTorch CUDAテンソルを用いてルール複雑性を処理し、ゲームのメモリ集約性に対処するため、ゲームツリーを(1)実際のゲーム状態、(2)前のラウンドから継承したスコアの2つのキーコンポーネントに分解する。
カード状態をアンフォールディングプロセスに蓄積したスコアとペアリングすることで,フルゲームツリーを構築する。
この設計は、重要な戦略値とノード接続のみを格納することで、メモリオーバーヘッドを低減する。
計算複雑性をさらに管理するために、最終ラウンドから始まり、平均ユーティリティを早期に再帰的に伝播するラウンド・バイ・ラウンドの後方トレーニング戦略を適用する。
提案手法は,平均10^9$以上のノードからなる完全ゲームツリーを構築する。
詳細な実装スニペットを提供します。
ほぼナッシュ均衡戦略を計算した後、ゲームプレイ中にこれらの戦略を予測するために木に基づくモデルを訓練する。
次に、GPUアクセラレーションを用いて、例えば、マッチアップ当たり1万のゲームが並列に実行されることをシミュレートすることで、平衡戦略間の大規模な自己プレイを通じて、各デッキの公正値を推定する。
同様のフレームワークは、アクションツリーがターンベースの戦略ゲームや金融市場でのシーケンシャルなトレーディング決定など、自然に複数のラウンドに分解されるような、他の強化学習アルゴリズムにも拡張することができる。
関連論文リスト
- Dominated Actions in Imperfect-Information Games [0.4895118383237099]
不完全情報ゲームにおける支配的行動の概念を定義し,研究する。
我々の主な成果は、アクションが混合戦略に支配されているかどうかを実証的に決定するアルゴリズムである。
我々は、"All In or Fold" No-Limit Texas Hold'em ポーカー変種における支配的な行動の役割を探求する。
論文 参考訳(メタデータ) (2025-04-13T20:48:44Z) - Efficiently Solving Turn-Taking Stochastic Games with Extensive-Form Correlation [52.16923999754027]
そこで我々は,Stackelbergの大規模相関平衡の計算アルゴリズムを提案する。
また,大域的相関平衡を近似計算するアルゴリズムも提案する。
ほぼ最適なEFCEのアルゴリズムは、私たちの知る限り、3つのデシラタを同時に達成した最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-12-22T09:12:05Z) - A General Upper Bound for the Runtime of a Coevolutionary Algorithm on Impartial Combinatorial Games [1.104960878651584]
Coevolutionary Algorithm (CoEA) は、セルフプレイを使用してゲームプレイエージェントを訓練する。
本稿では,CoEAのランタイム解析の範囲をゲームに適用し,シミュレーションゲーム数に対する一般的な上限を証明した。
主な結果を証明した後、Nim、Chomp、Silver Dollar、Turning Turtlesといった単純なゲームにいくつかの応用を提供している。
論文 参考訳(メタデータ) (2024-09-06T10:39:17Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。
これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-03-14T15:21:18Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。