論文の概要: PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers
- arxiv url: http://arxiv.org/abs/2605.30094v1
- Date: Thu, 28 May 2026 15:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.431179
- Title: PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers
- Title(参考訳): ポーカースキル:LLMは専門家レベルのポーカーを、訓練や問題解決なしにプレイできる
- Authors: Boning Li, Baoxiang Wang, Longbo Huang,
- Abstract要約: 大規模言語モデル (LLMs) はポーカーの知識が豊富だが、直接プレイするように要求された場合、解法に基づくエージェントよりはるかに低い範囲で実行する。
伝統的なルールベースのポーカーエージェントは解釈可能で、訓練も不要だが、その戦略的な天井は均衡の条件よりはるかに低いままである。
textbfPokerSkillは、このギャップを埋めるトレーニングフリーで解決可能なフレームワークです。
- 参考スコア(独自算出の注目度): 42.39656827917113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM's choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.
- Abstract(参考訳): ポーカーは人工知能にとって画期的な挑戦だ。
主流のアプローチは、反実的後悔の最小化に基づいて構築された平衡解法に依存し、数百万コア時間のトレーニングを必要とする。
大規模言語モデル (LLMs) はポーカーの知識が豊富だが、直接プレイするように要求された場合、解法に基づくエージェントよりはるかに低い範囲で実行する。
伝統的なルールベースのポーカーエージェントは解釈可能で、訓練も不要だが、その戦略的な天井は均衡の条件よりはるかに低いままである。
LLMのための構造化アクショングラウンドインタフェースとして,詳細なルールベースのポーカースキルを用いて,このギャップを橋渡しする,トレーニングフリーで解決可能なフレームワークである‘textbf{PokerSkill} を紹介した。
決定論的コンテキストエンジンは、現在の状態を分析し、レイヤー化されたスキルライブラリから関連するフラグメントのみを取得する。
最先端のGTOベンチマークであるGTOWizardに対して、GPT-5.5 XHigh with PokerSkillは$-57 \pm 21$ mbb/hand、Claude Opus 4.6は$-80 \pm 29$ mbb/hand、Claude Opus 4.7は$-87\pm 64$ mbb/hand、損失はデフォルトのプロンプトベースラインに比べて49-61\%減少し、Slumbotを上回っている。
我々の重要な発見は、ルールベースのスキルだけでは強力な戦略を構成しておらず、LSMだけではうまく機能しないが、それらの組み合わせによって、トレーニングもソルバアクセスも必要としないエージェントが、数百万コア時間の計算で構築されたシステムと競合する。
我々の知る限り、これはゲーム固有のトレーニングやソルバクエリを使わずに複雑な不完全情報ゲームにおいて、LLMが競争性能を達成する最初の実演である。
コードはhttps://github.com/lbn187/PokerSkill.comで入手できる。
関連論文リスト
- How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use [52.394999779049606]
大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。
LLMは従来のアルゴリズムと競合しない。
ツール統合推論フレームワークであるToolPokerを提案する。
論文 参考訳(メタデータ) (2026-01-31T05:45:25Z) - Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning [0.5249805590164902]
我々は、リアーズポーカーでエリートな人間のプレーを成し遂げた最初のAIエージェントであるSollyを紹介する。
モデルなし、アクター批判的、深層強化学習アルゴリズムを用いて、Sollyを訓練した。
ソリーは、利率(手の50パーセント以上)と株式(マネー)で測定されたエリートな人間レベルで、ヘッドアップとマルチプレイヤーのリアズポーカーでプレーした。
論文 参考訳(メタデータ) (2025-11-05T18:58:18Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - PokerBench: Training Large Language Models to become Professional Poker Players [3.934572858193348]
大規模言語モデル(LLM)のポーカー演奏能力を評価するベンチマークであるPokerBenchを紹介する。
不完全な情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論と人間の心理学の深い理解といった様々なスキルを要求する。
PokerBenchは、11,000の最も重要なシナリオを総合的にコンパイルし、プレフロップとポストフロップのプレイを分割する。
論文 参考訳(メタデータ) (2025-01-14T18:59:03Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model [14.14786217204364]
ポーカーはテキサスホールディング(Texas Hold'em)としても知られており、不完全な情報ゲーム(IIG)における典型的な研究対象となっている。
我々はテキサスホールドエムを任意の数のプレイヤーでプレイし、高い勝利率を得るためのエンドツーエンドの解法であるポーカーGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-04T13:27:50Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。