論文の概要: Reinforcement Learning for ConnectX
- arxiv url: http://arxiv.org/abs/2210.08263v1
- Date: Sat, 15 Oct 2022 11:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:42:08.344072
- Title: Reinforcement Learning for ConnectX
- Title(参考訳): ConnectXの強化学習
- Authors: Sheel Shah, Shubham Gupta
- Abstract要約: ConnectXは、人気ゲームであるConnect 4を一般化した2人プレイのゲームである。
目的は、MxNボードの行、列、あるいは対角線にXコインを渡すことである。
パラメータ(M,N,X)は各ゲームで変更可能であり、ConnectXは新しくて困難な問題である。
- 参考スコア(独自算出の注目度): 13.297185282001667
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ConnectX is a two-player game that generalizes the popular game Connect 4.
The objective is to get X coins across a row, column, or diagonal of an M x N
board. The first player to do so wins the game. The parameters (M, N, X) are
allowed to change in each game, making ConnectX a novel and challenging
problem. In this paper, we present our work on the implementation and
modification of various reinforcement learning algorithms to play ConnectX.
- Abstract(参考訳): ConnectXは、人気ゲームであるConnect 4を一般化した2プレイヤーゲームである。
目的は、m x n 板の行、列、または対角線に x コインを渡すことである。
最初のプレイヤーがゲームに勝つ。
パラメータ(m, n, x)は各ゲームで変更可能であり、connectxは新しくて挑戦的な問題となっている。
本稿では,ConnectXを再生する各種強化学習アルゴリズムの実装と修正について述べる。
関連論文リスト
- Imperfect-Recall Games: Equilibrium Concepts and Their Complexity [74.01381499760288]
エージェントが以前保持していた情報を忘れたとき、不完全なリコールの下で最適な意思決定を行う。
不完全なリコールを伴う広範囲形式のゲームフレームワークにおいて、マルチプレイヤー設定における平衡を求める際の計算複雑性を解析する。
論文 参考訳(メタデータ) (2024-06-23T00:27:28Z) - PyTAG: Tabletop Games for Multi-Agent Reinforcement Learning [0.41942958779358663]
PyTAGはTabletop Gamesフレームワークで実装されたゲーム集合とのインタラクションをサポートするフレームワークである。
ゲームプレイングエージェントの観点から、テーブルトップゲームが提供する課題と、それらが将来の研究にもたらす機会を強調します。
論文 参考訳(メタデータ) (2024-05-28T12:30:28Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Connecting XOR and XOR* games [0.0]
我々は、XOR非ローカルゲームとXOR*シーケンシャルゲームという、独占的なリソースを持つ2種類のゲームに焦点を当てる。
特定の仮定の下では、これらの2種類のゲームは、それらの最適戦略を結び付ける明示的な定理によって関連付けられることを証明している。
論文 参考訳(メタデータ) (2022-10-02T00:11:38Z) - Turning Mathematics Problems into Games: Reinforcement Learning and
Gr\"obner bases together solve Integer Feasibility Problems [4.746723775952672]
我々は、線形方程式と不等式の系が整数値の解を持つかどうかを判定する問題である整数実現可能性問題を考察する。
本稿では,エージェントが整数実現可能性問題と同等のゲームをすることができる,新しい代数的強化学習フレームワークについて述べる。
概念実証として、エージェントが2方向テーブルの最も単純なバージョンをうまくプレイできることを実験で実証する。
論文 参考訳(メタデータ) (2022-08-25T16:24:34Z) - Three-Player Game Training Dynamics [77.34726150561087]
単純化されたバイリニアスムースゲームの拡張版を用いて,3人プレイヤゲームトレーニングのダイナミクスを探索する。
ほとんどの場合、三線型ゲームはナッシュ均衡に収束しない。
更新と同時更新の交互化に加えて,新たな更新順序--maximizer-first-を探索する。
論文 参考訳(メタデータ) (2022-08-12T23:57:44Z) - Final Adaptation Reinforcement Learning for N-Player Games [0.0]
本稿では,n-tuple-based reinforcement learning (RL)アルゴリズムについて述べる。
本稿では,TD-,SARSA-およびQ-ラーニングのための新しいアルゴリズムを提案する。
これらのアルゴリズムにFinal Adaptation RL(FARL)と呼ばれる新しい要素を追加します。
論文 参考訳(メタデータ) (2021-11-29T08:36:39Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Smooth markets: A basic mechanism for organizing gradient-based learners [47.34060971879986]
スムーズマーケット(SM-games)は、対角にゼロ和の相互作用を持つn-プレイヤゲームの一種である。
SMゲームは、(一部)GAN、敵対的トレーニング、その他の最近のアルゴリズムを含む、機械学習における一般的なデザインパターンを符号化する。
SMゲームは1次手法を用いて解析と最適化が可能であることを示す。
論文 参考訳(メタデータ) (2020-01-14T09:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。