論文の概要: How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use
- arxiv url: http://arxiv.org/abs/2602.00528v1
- Date: Sat, 31 Jan 2026 05:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.238508
- Title: How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use
- Title(参考訳): プロのポーカープレイヤーからLLMはどこまで遠いか? : エージェントツールによるゲーム理論推論の再考
- Authors: Minhua Lin, Enyan Dai, Hui Liu, Xianfeng Tang, Yuliang Yan, Zhenwei Dai, Jingying Zeng, Zhiwei Zhang, Fali Wang, Hongcheng Gao, Chen Luo, Xiang Zhang, Qi He, Suhang Wang,
- Abstract要約: 大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。
LLMは従来のアルゴリズムと競合しない。
ツール統合推論フレームワークであるToolPokerを提案する。
- 参考スコア(独自算出の注目度): 52.394999779049606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly applied in high-stakes domains, their ability to reason strategically under uncertainty becomes critical. Poker provides a rigorous testbed, requiring not only strong actions but also principled, game-theoretic reasoning. In this paper, we conduct a systematic study of LLMs in multiple realistic poker tasks, evaluating both gameplay outcomes and reasoning traces. Our analysis reveals LLMs fail to compete against traditional algorithms and identifies three recurring flaws: reliance on heuristics, factual misunderstandings, and a "knowing-doing" gap where actions diverge from reasoning. An initial attempt with behavior cloning and step-level reinforcement learning improves reasoning style but remains insufficient for accurate game-theoretic play. Motivated by these limitations, we propose ToolPoker, a tool-integrated reasoning framework that combines external solvers for GTO-consistent actions with more precise professional-style explanations. Experiments demonstrate that ToolPoker achieves state-of-the-art gameplay while producing reasoning traces that closely reflect game-theoretic principles.
- Abstract(参考訳): 大規模言語モデル (LLMs) がハイテイクドメインにますます適用されるにつれて、不確実性の下で戦略的に推論する能力は重要になる。
ポーカーは厳格なテストベッドを提供し、強い行動だけでなく、ゲーム理論の推論も必要としている。
本稿では,複数の現実的なポーカータスクにおけるLLMの体系的研究を行い,ゲームプレイの結果と推論トレースの両方を評価する。
分析の結果, LLMは従来のアルゴリズムと競合せず, ヒューリスティックスへの依存, 事実的誤解, 行動が推論から分岐する「理解する」ギャップという3つの繰り返し発生する欠陥を同定した。
行動クローニングとステップレベルの強化学習による最初の試みは推論スタイルを改善するが、正確なゲーム理論プレイには不十分である。
これらの制約に触発されたツールPokerは,GTO整合性行動に対する外部解法と,より正確な専門的な説明を組み合わせたツール統合推論フレームワークである。
実験は、ツールポーカーがゲーム理論の原則を深く反映した推論トレースを生成しながら、最先端のゲームプレイを達成することを示した。
関連論文リスト
- LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。
我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。
トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文 参考訳(メタデータ) (2025-12-01T18:51:08Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。