論文の概要: PokerBench: Training Large Language Models to become Professional Poker Players
- arxiv url: http://arxiv.org/abs/2501.08328v1
- Date: Tue, 14 Jan 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:26:44.101065
- Title: PokerBench: Training Large Language Models to become Professional Poker Players
- Title(参考訳): PokerBench: プロのポーカープレーヤーになるための大規模言語モデルのトレーニング
- Authors: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli,
- Abstract要約: PokerBenchは、大規模言語モデル(LLM)のポーカー演奏能力を評価するためのベンチマークである。
不完全な情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論と人間の心理学の深い理解といった様々なスキルを要求する。
PokerBenchは、11,000の最も重要なシナリオを総合的にコンパイルし、プレフロップとポストフロップのプレイを分割する。
- 参考スコア(独自算出の注目度): 3.934572858193348
- License:
- Abstract: We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: \url{https://github.com/pokerllm/pokerbench}.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のポーカー演奏能力を評価するベンチマークであるPokerBenchを紹介する。
LLMは従来のNLPタスクに優れており、ポーカーのような複雑で戦略的なゲームへの応用は、新しい課題となる。
不完全な情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論と人間の心理学の深い理解といった様々なスキルを要求する。
これにより、Pokerは大規模な言語モデルにとって理想的な次のフロンティアとなる。
ポーカーベンチは11,000の最も重要なシナリオを総合的にまとめて構成され、プレフロップとポストフロップを分け、訓練されたポーカープレイヤーと共同で開発された。
GPT-4, ChatGPT 3.5, および様々なLlama, Gemma シリーズモデルを含む顕著なモデルを評価し, 最適ポーカーの演奏において, 最先端の LLM が不十分であることを確認した。
しかし、微調整後、これらのモデルは大幅に改善された。
我々は、異なるスコアのモデルが互いに競合し合い、ポーカーベンチのより高いスコアが実際のポーカーゲームでより高い勝利率をもたらすことを示すことによって、ポーカーベンチを検証する。
また,本モデルとGPT-4のゲームプレイを通じて,最適なプレイ戦略を学習するための単純な教師付き微調整の限界を識別し,より高度な学習手法の必要性を示唆する。
そこでPokerBenchは、LLMのポーカープレイ能力の迅速かつ信頼性の高い評価のためのユニークなベンチマークと、複雑なゲームプレイシナリオにおけるLLMの進行状況を研究するための総合的なベンチマークを提示する。
データセットとコードは以下の通りである。
関連論文リスト
- Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。
我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。
また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文 参考訳(メタデータ) (2024-10-17T11:16:27Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model [14.14786217204364]
ポーカーはテキサスホールディング(Texas Hold'em)としても知られており、不完全な情報ゲーム(IIG)における典型的な研究対象となっている。
我々はテキサスホールドエムを任意の数のプレイヤーでプレイし、高い勝利率を得るためのエンドツーエンドの解法であるポーカーGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-04T13:27:50Z) - A Survey on Game Theory Optimal Poker [0.0]
現在までに不完全な情報ゲームは解決されていない。
これにより、ポーカーは人工知能研究にとって素晴らしいテストベッドとなる。
本稿では,ポーカーボットの成功にともなう抽象化手法,ベッティングモデル,具体的な戦略について論じる。
論文 参考訳(メタデータ) (2024-01-02T04:19:25Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Are ChatGPT and GPT-4 Good Poker Players? -- A Pre-Flop Analysis [3.4111723103928173]
ポーカーテストにChatGPTとGPT-4を投入し,そのポーカースキルを評価した。
以上の結果から,両モデルともポーカーの高度な理解を示す一方で,ChatGPTとGPT-4はゲーム理論の最適ポーカープレイヤーではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-08-23T23:16:35Z) - PokerKit: A Comprehensive Python Library for Fine-Grained Multi-Variant Poker Game Simulations [40.39759037668144]
PokerKitは、既存のポーカーゲームシミュレーションと手評価ツールの制限を克服するために設計された、オープンソースのPythonライブラリである。
幅広いポーカーのバリエーションをサポートし、ユーザがカスタムゲームを定義するための柔軟なアーキテクチャを提供する。
PokerKitの柔軟性により、ポーカーAI開発、ツール作成、オンラインポーカーカジノ実装など、さまざまな分野のアプリケーションが可能になる。
論文 参考訳(メタデータ) (2023-08-08T13:54:48Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。