論文の概要: Beyond Game Theory Optimal: Profit-Maximizing Poker Agents for No-Limit Holdem
- arxiv url: http://arxiv.org/abs/2509.23747v1
- Date: Sun, 28 Sep 2025 08:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.419337
- Title: Beyond Game Theory Optimal: Profit-Maximizing Poker Agents for No-Limit Holdem
- Title(参考訳): ゲーム理論の最適性を超えて:無限界ホールディングムのための利益最大化ポーカーエージェント
- Authors: SeungHyun Yi, Seungjun Yi,
- Abstract要約: Game-Theory-Regret Minimization (CFR) は、ヘッドアップの状況では最高であり、CFRは、ほとんどのマルチウェイの状況では最強の方法である。
我々のアプローチは、ポーカーエージェントが単に負けないものから、多様な相手に一貫して勝つものへとどう動くかを示すことを目的としている。
- 参考スコア(独自算出の注目度): 0.06610877051761614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game theory has grown into a major field over the past few decades, and poker has long served as one of its key case studies. Game-Theory-Optimal (GTO) provides strategies to avoid loss in poker, but pure GTO does not guarantee maximum profit. To this end, we aim to develop a model that outperforms GTO strategies to maximize profit in No Limit Holdem, in heads-up (two-player) and multi-way (more than two-player) situations. Our model finds the GTO foundation and goes further to exploit opponents. The model first navigates toward many simulated poker hands against itself and keeps adjusting its decisions until no action can reliably beat it, creating a strong baseline that is close to the theoretical best strategy. Then, it adapts by observing opponent behavior and adjusting its strategy to capture extra value accordingly. Our results indicate that Monte-Carlo Counterfactual Regret Minimization (CFR) performs best in heads-up situations and CFR remains the strongest method in most multi-way situations. By combining the defensive strength of GTO with real-time exploitation, our approach aims to show how poker agents can move from merely not losing to consistently winning against diverse opponents.
- Abstract(参考訳): ゲーム理論はここ数十年で大きな分野に成長し、ポーカーは長年、その重要なケーススタディの1つとして機能してきた。
Game-Theory-Optimal (GTO)はポーカーの損失を避けるための戦略を提供するが、純粋なGTOは最大利益を保証しない。
この目的のために我々は,No Limit Holdemにおいて,ヘッドアップ(2人以上)とマルチウェイ(2人以上)の状況において,GTO戦略を上回り,利益を最大化するモデルを開発することを目的とする。
我々のモデルはGTO基盤を見つけ、さらに敵を搾取する。
モデルはまず、多くのシミュレーションされたポーカーの手に向かって移動し、どのアクションも確実に打ち負かさない限り決定を調整し続け、理論上の最良の戦略に近い強力なベースラインを作り出します。
そして、相手の行動を観察し、その戦略を調整して付加価値を捉え、適応する。
以上の結果から,モンテカルロ・ディファクチュアル・レジスト最小化(CFR)はヘッドアップ状況において最善であり,CFRはほとんどのマルチウェイ状況において最強の手法であることが明らかとなった。
本研究の目的は,GTOの防御力とリアルタイムの搾取とを組み合わせることで,ポーカーエージェントが単に負けることのないものから,多様な相手に対して一貫して勝つものへとどう動くかを示すことである。
関連論文リスト
- SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly [2.5788559173418357]
我々は、人気のある3人プレイのオンラインポーカーフォーマットであるSpin & Goに合わせた、最初のLarge Language ModelsであるSpinGPTを紹介する。
以上の結果から,SpinGPTは解答者の行動に78%の精度で一致していることがわかった。
これらの結果は、LLMがポーカーのようなマルチプレイヤー不完全な情報ゲームに対処する新しい方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2025-09-26T14:15:44Z) - A Benchmark for Generalizing Across Diverse Team Strategies in Competitive Pokémon [31.012853711707965]
Pok'emon Video Game Championships (VGC) は、チーム構成が極端に広い領域である。
重要なインフラストラクチャを提供し、評価プロトコルを標準化し、ヒューマンプレイデータセットを提供するベンチマークであるVGC-Benchを紹介します。
エージェントが単一チーム構成でトレーニングされ評価される制限された環境では、我々のメソッドはプロのVGC競合相手に勝つことができる。
論文 参考訳(メタデータ) (2025-06-12T03:19:39Z) - PokerBench: Training Large Language Models to become Professional Poker Players [3.934572858193348]
大規模言語モデル(LLM)のポーカー演奏能力を評価するベンチマークであるPokerBenchを紹介する。
不完全な情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論と人間の心理学の深い理解といった様々なスキルを要求する。
PokerBenchは、11,000の最も重要なシナリオを総合的にコンパイルし、プレフロップとポストフロップのプレイを分割する。
論文 参考訳(メタデータ) (2025-01-14T18:59:03Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。