論文の概要: Variations on the Reinforcement Learning performance of Blackjack
- arxiv url: http://arxiv.org/abs/2308.07329v1
- Date: Wed, 9 Aug 2023 13:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-20 16:29:16.410227
- Title: Variations on the Reinforcement Learning performance of Blackjack
- Title(参考訳): ブラックジャックの強化学習性能の変動
- Authors: Avish Buramdoyal, Tim Gebbie
- Abstract要約: ゲームの目的は、ディーラーより合計で21を超えることなく、ディーラーより高い手を得ることである。
ブラックジャックの環境と固有の報酬構造は,環境変動の存在下での強化学習エージェントの理解を深めるための魅力的な問題である。
また、ブラックジャックルールの普遍化を可能にするブラックジャックシミュレータも実装され、基本戦略とハイロシステムを完全に利用するカードカウンタが家屋を倒産させる可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blackjack or "21" is a popular card-based game of chance and skill. The
objective of the game is to win by obtaining a hand total higher than the
dealer's without exceeding 21. The ideal blackjack strategy will maximize
financial return in the long run while avoiding gambler's ruin. The stochastic
environment and inherent reward structure of blackjack presents an appealing
problem to better understand reinforcement learning agents in the presence of
environment variations. Here we consider a q-learning solution for optimal play
and investigate the rate of learning convergence of the algorithm as a function
of deck size. A blackjack simulator allowing for universal blackjack rules is
also implemented to demonstrate the extent to which a card counter perfectly
using the basic strategy and hi-lo system can bring the house to bankruptcy and
how environment variations impact this outcome. The novelty of our work is to
place this conceptual understanding of the impact of deck size in the context
of learning agent convergence.
- Abstract(参考訳): ブラックジャック(blackjack)または「21」は、カードベースの人気ゲームである。
ゲームの目的は、ディーラーより合計で21を超えることなく、ディーラーより高い手を得ることである。
理想的なブラックジャック戦略は、ギャンブラーの崩壊を避けながら、長期的に金融リターンを最大化する。
ブラックジャックの確率的環境と固有報酬構造は,環境変動の存在下での強化学習エージェントの理解を深めるための魅力的な問題である。
本稿では,最適遊びのためのq-learningソリューションを検討し,アルゴリズムの学習収束率をデッキサイズ関数として検討する。
また、ブラックジャックルールの普遍化を可能にするブラックジャックシミュレータを実装し、基本戦略とハイロシステムを用いてカードカウンタがハウスを倒産させ、環境変動がこの結果にどのように影響するかを示す。
我々の研究の新規性は、学習エージェント収束の文脈におけるデッキサイズの影響に関するこの概念的理解を配置することである。
関連論文リスト
- Optimal Blackjack Strategy Recommender: A Comprehensive Study on Computer Vision Integration for Enhanced Gameplay [0.0]
ブラックジャックの文脈におけるカードの検出・認識におけるコンピュータビジョン技術の適用について検討した。
提案手法は, K-Means を用いて画像分割, カード再投影, 特徴抽出を行う。
本研究の目的は、異なる照明条件下での各種カード設計の検出において、このアプローチの有効性を観察することである。
論文 参考訳(メタデータ) (2024-03-29T23:17:49Z) - Mastering Strategy Card Game (Legends of Code and Magic) via End-to-End
Policy and Optimistic Smooth Fictitious Play [11.480308614644041]
我々は、2段階の戦略カードゲーム「Regends of Code and Magic」を研究する。
マルチステージゲームにおける難題を解決するために,エンド・ツー・エンドのポリシーを提案する。
私たちのアプローチはCOG2022コンペティションの2連覇です。
論文 参考訳(メタデータ) (2023-03-07T17:55:28Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Optimisation of MCTS Player for The Lord of the Rings: The Card Game [0.0]
本稿では,モンテカルロツリーサーチ(MCTS)手法を用いて,人気カードゲーム「指輪のロード」の人工プレイヤーを作成する研究について述べる。
論文 参考訳(メタデータ) (2021-09-24T14:42:32Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - DeepGamble: Towards unlocking real-time player intelligence using
multi-layer instance segmentation and attribute detection [0.8749675983608171]
カジノでは、熟練していないプレイヤーは熟練したプレイヤーの4倍の収益を得ることができた。
本稿では,Mask R-CNNモデルの拡張に基づくビデオ認識システムについて述べる。
当社のシステムは、カードやプレイヤーのベットをリアルタイムで検出してブラックジャックのゲームをデジタル化します。
論文 参考訳(メタデータ) (2020-12-14T23:46:26Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Optimal strategies in the Fighting Fantasy gaming system: influencing
stochastic dynamics by gambling with limited resource [0.0]
Fighting Fantasyは、世界で人気のあるレクリエーションファンタジーゲームシステムである。
各ラウンドでは、限られた資源(Luck')がギャンブルに費やされ、勝利の利益を増幅したり、損失から赤字を軽減したりすることができる。
我々は,システムに対するベルマン方程式の解法と,ゲーム中の任意の状態に対する最適な戦略を特定するために,後方帰納法を用いる。
論文 参考訳(メタデータ) (2020-02-24T11:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。