論文の概要: How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use
- arxiv url: http://arxiv.org/abs/2602.00528v1
- Date: Sat, 31 Jan 2026 05:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.238508
- Title: How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use
- Title(参考訳): プロのポーカープレイヤーからLLMはどこまで遠いか? : エージェントツールによるゲーム理論推論の再考
- Authors: Minhua Lin, Enyan Dai, Hui Liu, Xianfeng Tang, Yuliang Yan, Zhenwei Dai, Jingying Zeng, Zhiwei Zhang, Fali Wang, Hongcheng Gao, Chen Luo, Xiang Zhang, Qi He, Suhang Wang,
- Abstract要約: 大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。
LLMは従来のアルゴリズムと競合しない。
ツール統合推論フレームワークであるToolPokerを提案する。
- 参考スコア(独自算出の注目度): 52.394999779049606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly applied in high-stakes domains, their ability to reason strategically under uncertainty becomes critical. Poker provides a rigorous testbed, requiring not only strong actions but also principled, game-theoretic reasoning. In this paper, we conduct a systematic study of LLMs in multiple realistic poker tasks, evaluating both gameplay outcomes and reasoning traces. Our analysis reveals LLMs fail to compete against traditional algorithms and identifies three recurring flaws: reliance on heuristics, factual misunderstandings, and a "knowing-doing" gap where actions diverge from reasoning. An initial attempt with behavior cloning and step-level reinforcement learning improves reasoning style but remains insufficient for accurate game-theoretic play. Motivated by these limitations, we propose ToolPoker, a tool-integrated reasoning framework that combines external solvers for GTO-consistent actions with more precise professional-style explanations. Experiments demonstrate that ToolPoker achieves state-of-the-art gameplay while producing reasoning traces that closely reflect game-theoretic principles.
- Abstract(参考訳): 大規模言語モデル (LLMs) がハイテイクドメインにますます適用されるにつれて、不確実性の下で戦略的に推論する能力は重要になる。
ポーカーは厳格なテストベッドを提供し、強い行動だけでなく、ゲーム理論の推論も必要としている。
本稿では,複数の現実的なポーカータスクにおけるLLMの体系的研究を行い,ゲームプレイの結果と推論トレースの両方を評価する。
分析の結果, LLMは従来のアルゴリズムと競合せず, ヒューリスティックスへの依存, 事実的誤解, 行動が推論から分岐する「理解する」ギャップという3つの繰り返し発生する欠陥を同定した。
行動クローニングとステップレベルの強化学習による最初の試みは推論スタイルを改善するが、正確なゲーム理論プレイには不十分である。
これらの制約に触発されたツールPokerは,GTO整合性行動に対する外部解法と,より正確な専門的な説明を組み合わせたツール統合推論フレームワークである。
実験は、ツールポーカーがゲーム理論の原則を深く反映した推論トレースを生成しながら、最先端のゲームプレイを達成することを示した。
関連論文リスト
- LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。
我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。
トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文 参考訳(メタデータ) (2025-12-01T18:51:08Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Mastering Da Vinci Code: A Comparative Study of Transformer, LLM, and PPO-based Agents [0.0]
論理的推論と不完全な情報のゲームであるDa Vinci Codeは、人工知能に固有の課題を提示している。
本稿では,このゲームを習得する上で,様々なAIパラダイムの有効性について検討する。
論文 参考訳(メタデータ) (2025-06-15T10:33:30Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。