論文の概要: Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.03724v1
- Date: Wed, 05 Nov 2025 18:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.524325
- Title: Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning
- Title(参考訳): エリートヒトのアウトビディングとアウトブロッフィング:自己演奏と強化学習による嘘つきポーカーの習得
- Authors: Richard Dewey, Janos Botyanszki, Ciamac C. Moallemi, Andrew T. Zheng,
- Abstract要約: 我々は、リアーズポーカーでエリートな人間のプレーを成し遂げた最初のAIエージェントであるSollyを紹介する。
モデルなし、アクター批判的、深層強化学習アルゴリズムを用いて、Sollyを訓練した。
ソリーは、利率(手の50パーセント以上)と株式(マネー)で測定されたエリートな人間レベルで、ヘッドアップとマルチプレイヤーのリアズポーカーでプレーした。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI researchers have long focused on poker-like games as a testbed for environments characterized by multi-player dynamics, imperfect information, and reasoning under uncertainty. While recent breakthroughs have matched elite human play at no-limit Texas hold'em, the multi-player dynamics are subdued: most hands converge quickly with only two players engaged through multiple rounds of bidding. In this paper, we present Solly, the first AI agent to achieve elite human play in reduced-format Liar's Poker, a game characterized by extensive multi-player engagement. We trained Solly using self-play with a model-free, actor-critic, deep reinforcement learning algorithm. Solly played at an elite human level as measured by win rate (won over 50% of hands) and equity (money won) in heads-up and multi-player Liar's Poker. Solly also outperformed large language models (LLMs), including those with reasoning abilities, on the same metrics. Solly developed novel bidding strategies, randomized play effectively, and was not easily exploitable by world-class human players.
- Abstract(参考訳): AI研究者は長年、マルチプレイヤーのダイナミクス、不完全な情報、不確実性の下での推論を特徴とする環境のためのテストベッドとしてポーカーのようなゲームに重点を置いてきた。
最近のブレークスルーはテキサスホールディングスでエリートな人間のプレーと一致しているが、マルチプレイヤーのダイナミクスは抑えられている。
本稿では,多人数のエンゲージメントを特徴とするゲーム「Liar's Poker」において,人間のエリートプレイを初めて達成したAIエージェントであるSollyを紹介する。
モデルなし、アクター批判的、深層強化学習アルゴリズムを用いて、Sollyを訓練した。
ソリーは、利率(手の50パーセント以上)と株式(マネー)で測定されたエリートな人間レベルで、ヘッドアップとマルチプレイヤーのリアズポーカーでプレーした。
同じメトリクスで推論能力を持つものを含む、大きな言語モデル(LLM)でもパフォーマンスが向上した。
ソリーは新しい入札戦略を開発し、ランダムなプレーを効果的に行い、ワールドクラスの人間プレイヤーに簡単には利用できなかった。
関連論文リスト
- People use fast, flat goal-directed simulation to reason about novel problems [68.55490343866545]
私たちは、人々が初めてゲームをする方法に体系的かつ適応的に合理的であることを示します。
直感型ゲーマー」と呼ばれる計算認知モデルを用いて,これらの能力を説明する。
私たちの研究は、人々が新しい問題に遭遇するとき、どのように素早く評価し、行動し、提案するかに関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-10-13T15:12:08Z) - SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly [2.5788559173418357]
我々は、人気のある3人プレイのオンラインポーカーフォーマットであるSpin & Goに合わせた、最初のLarge Language ModelsであるSpinGPTを紹介する。
以上の結果から,SpinGPTは解答者の行動に78%の精度で一致していることがわかった。
これらの結果は、LLMがポーカーのようなマルチプレイヤー不完全な情報ゲームに対処する新しい方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2025-09-26T14:15:44Z) - PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model [14.14786217204364]
ポーカーはテキサスホールディング(Texas Hold'em)としても知られており、不完全な情報ゲーム(IIG)における典型的な研究対象となっている。
我々はテキサスホールドエムを任意の数のプレイヤーでプレイし、高い勝利率を得るためのエンドツーエンドの解法であるポーカーGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-04T13:27:50Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Guarantees for Self-Play in Multiplayer Games via Polymatrix
Decomposability [2.2636685010313364]
セルフプレイ(Self-play)は、学習アルゴリズムが自分自身のコピーと対話して学習するマルチエージェントシステムにおける機械学習のテクニックである。
両プレイヤーの定数ゲームでは、ナッシュ均衡に達するセルフプレイが保証され、ポストトレーニング中の対戦相手に対して良好に機能する戦略が作成できることを示す。
本研究は,マルチプレイヤーゲームの構造的特性を初めて同定し,多種多様なセルフプレイアルゴリズムによって生成される戦略の性能保証を実現する。
論文 参考訳(メタデータ) (2023-10-17T18:33:21Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。