論文の概要: Analysis of Bluffing by DQN and CFR in Leduc Hold'em Poker
- arxiv url: http://arxiv.org/abs/2509.04125v1
- Date: Thu, 04 Sep 2025 11:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.14537
- Title: Analysis of Bluffing by DQN and CFR in Leduc Hold'em Poker
- Title(参考訳): Leduc Hold'em PokerにおけるDQNおよびCFRによるブラッフィングの解析
- Authors: Tarik Zaciragic, Aske Plaat, K. Joost Batenburg,
- Abstract要約: 我々は、DQNとCFRの2つの人気アルゴリズムが、Leduc Hold'emでブラッフィング行動を示すかどうかを調べた。
DQNとCFRはどちらもブラッフの挙動を示すが、異なる方法で行う。
これは、ブラフティングがアルゴリズムではなく、ゲームの本質的な側面であることを示している。
- 参考スコア(独自算出の注目度): 0.3459227740065624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the game of poker, being unpredictable, or bluffing, is an essential skill. When humans play poker, they bluff. However, most works on computer-poker focus on performance metrics such as win rates, while bluffing is overlooked. In this paper we study whether two popular algorithms, DQN (based on reinforcement learning) and CFR (based on game theory), exhibit bluffing behavior in Leduc Hold'em, a simplified version of poker. We designed an experiment where we let the DQN and CFR agent play against each other while we log their actions. We find that both DQN and CFR exhibit bluffing behavior, but they do so in different ways. Although both attempt to perform bluffs at different rates, the percentage of successful bluffs (where the opponent folds) is roughly the same. This suggests that bluffing is an essential aspect of the game, not of the algorithm. Future work should look at different bluffing styles and at the full game of poker. Code at https://github.com/TarikZ03/Bluffing-by-DQN-and-CFR-in-Leduc-Hold-em-Poker-Codebase.
- Abstract(参考訳): ポーカーのゲームでは、予測不可能、またはブラッフィングが必須のスキルである。
人間はポーカーをプレイするとき、ふわふわします。
しかしながら、コンピュータポーカーに関する作業の多くは、勝利率などのパフォーマンス指標に焦点を当てているが、ブラフリングは見過ごされている。
本稿では,DQN(強化学習)とCFR(ゲーム理論)の2つの人気アルゴリズムが,ポーカーの簡易版であるLeduc Hold'emにおいてブラッフィング動作を示すかどうかを検討する。
我々はDQNとCFRのエージェントを互いに対戦させる実験を設計した。
DQNとCFRはどちらもブラッフの挙動を示すが、異なる方法で行う。
どちらも異なるレートでブラフを実行しようとするが、成功するブラフ(相手が折り畳む)の割合はほぼ同じである。
これは、ブラフティングがアルゴリズムではなく、ゲームの本質的な側面であることを示している。
今後の作業は、さまざまなブラッフィングスタイルと、ポーカーの完全なゲームに目を向けるべきです。
コードネームはhttps://github.com/TarikZ03/Bluffing-by-DQN-and-CFR-in-Leduc-Hold-em-Poker-Codebase。
関連論文リスト
- General search techniques without common knowledge for imperfect-information games, and application to superhuman Fog of War chess [68.20244032271847]
我々は、戦争チェスのための最初の超人的AIであるObscuroを提示する。
不完全な情報ゲームにおける検索の進歩を導入し、強力でスケーラブルな推論を可能にした。
最先端のAIと人間のプレーヤーに対する実験は、Obscuroがかなり強いことを示している。
論文 参考訳(メタデータ) (2025-06-02T01:41:27Z) - PokerBench: Training Large Language Models to become Professional Poker Players [3.934572858193348]
大規模言語モデル(LLM)のポーカー演奏能力を評価するベンチマークであるPokerBenchを紹介する。
不完全な情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論と人間の心理学の深い理解といった様々なスキルを要求する。
PokerBenchは、11,000の最も重要なシナリオを総合的にコンパイルし、プレフロップとポストフロップのプレイを分割する。
論文 参考訳(メタデータ) (2025-01-14T18:59:03Z) - Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文 参考訳(メタデータ) (2024-10-17T11:16:27Z) - A Survey on Game Theory Optimal Poker [0.0]
現在までに不完全な情報ゲームは解決されていない。
これにより、ポーカーは人工知能研究にとって素晴らしいテストベッドとなる。
本稿では,ポーカーボットの成功にともなう抽象化手法,ベッティングモデル,具体的な戦略について論じる。
論文 参考訳(メタデータ) (2024-01-02T04:19:25Z) - Are ChatGPT and GPT-4 Good Poker Players? -- A Pre-Flop Analysis [3.4111723103928173]
ポーカーテストにChatGPTとGPT-4を投入し,そのポーカースキルを評価した。
以上の結果から,両モデルともポーカーの高度な理解を示す一方で,ChatGPTとGPT-4はゲーム理論の最適ポーカープレイヤーではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-08-23T23:16:35Z) - DecisionHoldem: Safe Depth-Limited Solving With Diverse Opponents for Imperfect-Information Games [31.26667266662521]
DecisionHoldemは、ディープ・リミテッド・サブゲームによる安全な解法を備えた、ヘッドアップ・ノー・リミット・テキサスホールディングスのためのハイレベルAIだ。
我々は,不完全な情報ゲームにおけるAI開発を促進するために,DecisionHoldemのソースコードとツールをリリースする。
論文 参考訳(メタデータ) (2022-01-27T15:35:49Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。