論文の概要: Yahtzee: Reinforcement Learning Techniques for Stochastic Combinatorial Games
- arxiv url: http://arxiv.org/abs/2601.00007v1
- Date: Thu, 18 Dec 2025 20:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.485754
- Title: Yahtzee: Reinforcement Learning Techniques for Stochastic Combinatorial Games
- Title(参考訳): Yahtzee: 確率的コンビネーションゲームのための強化学習技術
- Authors: Nicholas A. Pape,
- Abstract要約: 我々はMarkov Decision Process (MDP) 法を用いてソリティアのYahtzeeに対して最適なポリシーを定式化する。
我々は様々なポリシー勾配法を用いてセルフプレイエージェントを訓練する。
すべてのモデルは、上位のボーナス戦略を学ぶのに苦労し、4人組でオーバーインデックスします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Yahtzee is a classic dice game with a stochastic, combinatorial structure and delayed rewards, making it an interesting mid-scale RL benchmark. While an optimal policy for solitaire Yahtzee can be computed using dynamic programming methods, multiplayer is intractable, motivating approximation methods. We formulate Yahtzee as a Markov Decision Process (MDP), and train self-play agents using various policy gradient methods: REINFORCE, Advantage Actor-Critic (A2C), and Proximal Policy Optimization (PPO), all using a multi-headed network with a shared trunk. We ablate feature and action encodings, architecture, return estimators, and entropy regularization to understand their impact on learning. Under a fixed training budget, REINFORCE and PPO prove sensitive to hyperparameters and fail to reach near-optimal performance, whereas A2C trains robustly across a range of settings. Our agent attains a median score of 241.78 points over 100,000 evaluation games, within 5.0\% of the optimal DP score of 254.59, achieving the upper section bonus and Yahtzee at rates of 24.9\% and 34.1\%, respectively. All models struggle to learn the upper bonus strategy, overindexing on four-of-a-kind's, highlighting persistent long-horizon credit-assignment and exploration challenges.
- Abstract(参考訳): Yahtzeeは古典的なサイコロゲームであり、確率的、組合せ的構造を持ち、報酬が遅れているため、興味深い中規模RLベンチマークとなっている。
ソリティアYahtzeeの最適ポリシーは動的プログラミング手法で計算できるが、マルチプレイヤーは難解であり、近似法を動機付けている。
我々は,Yahtzeeをマルコフ決定過程 (MDP) として定式化し,REINFORCE, Advantage Actor-Critic (A2C), Proximal Policy Optimization (PPO) など,様々なポリシー勾配手法を用いてセルフプレイエージェントを訓練する。
特徴と行動のエンコーディング、アーキテクチャ、回帰推定器、エントロピー正規化を改良し、学習への影響を理解します。
一定の訓練予算の下では、REINFORCEとPPOはハイパーパラメータに敏感であることが証明され、ほぼ最適性能に届かなかった。
エージェントは, 最適DPスコア254.59の5.0\%以内の10,000試合中241.78ポイントを獲得し, それぞれ24.9\%, 34.1\%で上位部ボーナス, Yahtzeeを達成した。
すべてのモデルは、上位のボーナス戦略を学ぶのに苦労し、四人組にオーバーインデックスし、長期のクレジットアサインメントと探索の課題を強調します。
関連論文リスト
- Randomised Optimism via Competitive Co-Evolution for Matrix Games with Bandit Feedback [0.0]
本研究では,未知のペイオフ行列と帯域フィードバックを持つ2プレイヤーゼロサム行列ゲームについて検討する。
本稿では,進化的アルゴリズムをバンディットフレームワークに統合する新しいアルゴリズムであるコンペティティブ共進化帯域学習(coebl)を提案する。
決定論的楽観主義に基づく手法の性能と一致して,coeblがサブ線形後悔を実現することを証明した。
論文 参考訳(メタデータ) (2025-05-19T10:05:55Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせることに成功している。
DPOのような一般的な手法は高い性能を示してきたが、彼らは言語モデルとの相互作用を帯域幅の問題として捉えている。
本稿では,アライメント問題を2プレイヤー定数マルコフゲームとしてモデル化することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Learning to Play Stochastic Two-player Perfect-Information Games without
Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。
我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。
最良の結果を得るのはDescentの一般化である。
論文 参考訳(メタデータ) (2023-02-08T20:27:45Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Temporal Induced Self-Play for Stochastic Bayesian Games [32.88124137877018]
我々は,任意の意思決定点から適切なパフォーマンスの戦略を見つけるために,TISP(Temporal-induced Self-Play)を提案する。
TISPは、信念空間表現、後方誘導、ポリシー学習、および非パラメトリック近似を使用する。
TISPに基づくアルゴリズムは、有限地平線を持つゼロサム片面ゲームにおいて、近似されたパーフェクトベイズ平衡を見つけることができることを証明している。
論文 参考訳(メタデータ) (2021-08-21T05:36:42Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Agent57: Outperforming the Atari Human Benchmark [15.75730239983062]
Atariゲームは強化学習における長年のベンチマークだ。
本稿では,Atari 57 ゲームにおいて,Atari 57 ゲームにおいてヒトの標準ベンチマークを上回り,初の深度 RL エージェントである Agent57 を提案する。
論文 参考訳(メタデータ) (2020-03-30T11:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。