論文の概要: PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model
- arxiv url: http://arxiv.org/abs/2401.06781v1
- Date: Thu, 4 Jan 2024 13:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:42:27.410075
- Title: PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model
- Title(参考訳): PokerGPT: 大規模言語モデルによるマルチプレイヤーテキサスホールディングスのためのエンドツーエンド軽量ソルバー
- Authors: Chenghao Huang, Yanbo Cao, Yinlong Wen, Tao Zhou, Yanru Zhang
- Abstract要約: ポーカーはテキサスホールディング(Texas Hold'em)としても知られており、不完全な情報ゲーム(IIG)における典型的な研究対象となっている。
我々はテキサスホールドエムを任意の数のプレイヤーでプレイし、高い勝利率を得るためのエンドツーエンドの解法であるポーカーGPTを紹介する。
- 参考スコア(独自算出の注目度): 14.14786217204364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poker, also known as Texas Hold'em, has always been a typical research target
within imperfect information games (IIGs). IIGs have long served as a measure
of artificial intelligence (AI) development. Representative prior works, such
as DeepStack and Libratus heavily rely on counterfactual regret minimization
(CFR) to tackle heads-up no-limit Poker. However, it is challenging for
subsequent researchers to learn CFR from previous models and apply it to other
real-world applications due to the expensive computational cost of CFR
iterations. Additionally, CFR is difficult to apply to multi-player games due
to the exponential growth of the game tree size. In this work, we introduce
PokerGPT, an end-to-end solver for playing Texas Hold'em with arbitrary number
of players and gaining high win rates, established on a lightweight large
language model (LLM). PokerGPT only requires simple textual information of
Poker games for generating decision-making advice, thus guaranteeing the
convenient interaction between AI and humans. We mainly transform a set of
textual records acquired from real games into prompts, and use them to
fine-tune a lightweight pre-trained LLM using reinforcement learning human
feedback technique. To improve fine-tuning performance, we conduct prompt
engineering on raw data, including filtering useful information, selecting
behaviors of players with high win rates, and further processing them into
textual instruction using multiple prompt engineering techniques. Through the
experiments, we demonstrate that PokerGPT outperforms previous approaches in
terms of win rate, model size, training time, and response speed, indicating
the great potential of LLMs in solving IIGs.
- Abstract(参考訳): ポーカーはテキサスホールデムとしても知られ、常にimperfect information games (iigs) の典型的な研究対象となっている。
IIGは長年、人工知能(AI)の発展の指標として機能してきた。
DeepStackやLibratusといった代表的な先行作業は、ヘッドアップのノーリミットポーカーに取り組むために、反ファクト的後悔の最小化(CFR)に大きく依存している。
しかし、その後の研究者は、CFRイテレーションの高価な計算コストのために、以前のモデルからCFRを学び、それを他の現実世界のアプリケーションに適用することは困難である。
また,ゲームツリーサイズが指数関数的に大きくなるため,マルチプレイヤーゲームに適用することは困難である。
本稿では,テキサスホールデムを任意の数の選手と対戦し,高い勝利率を得るためのエンドツーエンド解法であるポーカーgptを,軽量大言語モデル(llm)に基づいて紹介する。
PokerGPTは、意思決定アドバイスを生成するためにポーカーゲームの単純なテキスト情報のみを必要とするため、AIと人間間の便利なインタラクションが保証される。
我々は,実ゲームから取得した一連のテキストレコードをプロンプトに変換し,強化学習人間のフィードバック技術を用いて,軽量な事前学習LDMを微調整する。
微調整性能を向上させるため,有用な情報をフィルタリングし,高い利得率のプレイヤーの行動を選択し,さらに複数のプロンプト技術を用いてテキスト命令に処理するなど,生データ上でのプロンプトエンジニアリングを行う。
実験により,PokerGPTは勝利率,モデルサイズ,トレーニング時間,応答速度において従来の手法よりも優れており,IIGの解法におけるLLMの大きな可能性を示している。
関連論文リスト
- Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文 参考訳(メタデータ) (2024-10-17T11:16:27Z) - AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding [6.177038245239759]
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
修正されたアルゴリズムにより、AIは入札やカードプレイを含む、Doudizhuゲームにおける全タスクを実行できる。
論文 参考訳(メタデータ) (2024-07-14T17:32:36Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - A Survey on Game Theory Optimal Poker [0.0]
現在までに不完全な情報ゲームは解決されていない。
これにより、ポーカーは人工知能研究にとって素晴らしいテストベッドとなる。
本稿では,ポーカーボットの成功にともなう抽象化手法,ベッティングモデル,具体的な戦略について論じる。
論文 参考訳(メタデータ) (2024-01-02T04:19:25Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。