論文の概要: SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly
- arxiv url: http://arxiv.org/abs/2509.22387v1
- Date: Fri, 26 Sep 2025 14:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.493598
- Title: SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly
- Title(参考訳): SpinGPT: ポーカーを正しく演奏するための大規模言語モデルアプローチ
- Authors: Narada Maugin, Tristan Cazenave,
- Abstract要約: 我々は、人気のある3人プレイのオンラインポーカーフォーマットであるSpin & Goに合わせた、最初のLarge Language ModelsであるSpinGPTを紹介する。
以上の結果から,SpinGPTは解答者の行動に78%の精度で一致していることがわかった。
これらの結果は、LLMがポーカーのようなマルチプレイヤー不完全な情報ゲームに対処する新しい方法になり得ることを示唆している。
- 参考スコア(独自算出の注目度): 2.5788559173418357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Counterfactual Regret Minimization (CFR) algorithm and its variants have enabled the development of pokerbots capable of beating the best human players in heads-up (1v1) cash games and competing with them in six-player formats. However, CFR's computational complexity rises exponentially with the number of players. Furthermore, in games with three or more players, following Nash equilibrium no longer guarantees a non-losing outcome. These limitations, along with others, significantly restrict the applicability of CFR to the most popular formats: tournaments. Motivated by the recent success of Large Language Models (LLM) in chess and Diplomacy, we present SpinGPT, the first LLM tailored to Spin & Go, a popular three-player online poker format. SpinGPT is trained in two stages: (1) Supervised Fine-Tuning on 320k high-stakes expert decisions; (2) Reinforcement Learning on 270k solver-generated hands. Our results show that SpinGPT matches the solver's actions in 78% of decisions (tolerant accuracy). With a simple deep-stack heuristic, it achieves 13.4 +/- 12.9 BB/100 versus Slumbot in heads-up over 30,000 hands (95% CI). These results suggest that LLMs could be a new way to deal with multi-player imperfect-information games like poker.
- Abstract(参考訳): Counterfactual Regret Minimization (CFR)アルゴリズムとその変種は、ヘッドアップ(1v1)キャッシュゲームで最高の人間プレイヤーを倒し、それらを6プレイヤーフォーマットで競合させることができるポーカーボットの開発を可能にした。
しかし、CFRの計算複雑性はプレイヤー数とともに指数関数的に増加する。
さらに、3人以上のプレーヤーを持つゲームでは、ナッシュ均衡に従えば、損失のない結果が保証されなくなる。
これらの制限は他の制限とともに、CFRの最も人気のあるフォーマットであるトーナメントへの適用性を著しく制限した。
チェスと外交における最近のLarge Language Models (LLM)の成功に触発された私たちは、人気のある3人プレイのオンラインポーカーフォーマットであるSpin & Goに合わせた最初のLLMであるSpinGPTを紹介します。
SpinGPTは,(1)高精度な320kの細調整,(2)270kの手の強化学習,の2段階で訓練されている。
以上の結果から,SpinGPTは解答者の行動と78%の判定(許容精度)で一致した。
単純なDeep-stackヒューリスティックで13.4 +/- 12.9 BB/100とスラムボットの3万本以上の手(95%CI)で達成できる。
これらの結果は、LLMがポーカーのようなマルチプレイヤー不完全な情報ゲームに対処する新しい方法になり得ることを示唆している。
関連論文リスト
- PokerBench: Training Large Language Models to become Professional Poker Players [3.934572858193348]
大規模言語モデル(LLM)のポーカー演奏能力を評価するベンチマークであるPokerBenchを紹介する。
不完全な情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論と人間の心理学の深い理解といった様々なスキルを要求する。
PokerBenchは、11,000の最も重要なシナリオを総合的にコンパイルし、プレフロップとポストフロップのプレイを分割する。
論文 参考訳(メタデータ) (2025-01-14T18:59:03Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model [14.14786217204364]
ポーカーはテキサスホールディング(Texas Hold'em)としても知られており、不完全な情報ゲーム(IIG)における典型的な研究対象となっている。
我々はテキサスホールドエムを任意の数のプレイヤーでプレイし、高い勝利率を得るためのエンドツーエンドの解法であるポーカーGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-04T13:27:50Z) - Regret Matching+: (In)Stability and Fast Convergence in Games [68.13214224119024]
RM+とその予測バージョンは不安定であり,他のプレイヤーが大きな後悔を味わう可能性がある。
これらの修正は、RM+による通常のゲームにおいて、個々の後悔に対して$O(T1/4)$$と$O(1)$の社会的後悔を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-24T04:26:21Z) - Mastering Strategy Card Game (Hearthstone) with Improved Techniques [8.399453146308502]
戦略カードゲームはインテリジェントなゲームプレイを必要としており、AIにとって理想的なテストベンチになり得る。
これまでの仕事は、エンドツーエンドのポリシー機能と楽観的なスムーズな架空の遊びを組み合わせたものだった。
本研究では,ゲームルールや機構が複雑である有名な商用ゲームであるHerthstoneに対して,そのようなアルゴリズムを適用する。
論文 参考訳(メタデータ) (2023-03-09T11:52:52Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games [104.3339905200105]
この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
論文 参考訳(メタデータ) (2022-06-12T19:49:14Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。