論文の概要: Deep Reinforcement Learning for 5*5 Multiplayer Go
- arxiv url: http://arxiv.org/abs/2405.14265v1
- Date: Thu, 23 May 2024 07:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:24:17.568924
- Title: Deep Reinforcement Learning for 5*5 Multiplayer Go
- Title(参考訳): 5*5マルチプレイヤーGOのための深層強化学習
- Authors: Brahim Driss, Jérôme Arjonilla, Hui Wang, Abdallah Saffidine, Tristan Cazenave,
- Abstract要約: 本稿では,検索と深層強化学習(DRL)を用いた最新のアルゴリズムの利用と解析を提案する。
我々は,2人以上のプレイヤーがいても,検索とDRLによりプレイレベルを向上できたことを示す。
- 参考スコア(独自算出の注目度): 6.222520876209623
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, much progress has been made in computer Go and most of the results have been obtained thanks to search algorithms (Monte Carlo Tree Search) and Deep Reinforcement Learning (DRL). In this paper, we propose to use and analyze the latest algorithms that use search and DRL (AlphaZero and Descent algorithms) to automatically learn to play an extended version of the game of Go with more than two players. We show that using search and DRL we were able to improve the level of play, even though there are more than two players.
- Abstract(参考訳): 近年,コンピュータ Go では,探索アルゴリズム (Monte Carlo Tree Search) とDeep Reinforcement Learning (DRL) により,多くの成果が得られた。
本稿では,検索とDRL(AlphaZero と Descent のアルゴリズム)を用いた最新のアルゴリズムを用いて,Go のゲームの拡張バージョンを2人以上のプレイヤーで自動的に学習する手法を提案する。
我々は,2人以上のプレイヤーがいても,検索とDRLによりプレイレベルを向上できたことを示す。
関連論文リスト
- Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Final Adaptation Reinforcement Learning for N-Player Games [0.0]
本稿では,n-tuple-based reinforcement learning (RL)アルゴリズムについて述べる。
本稿では,TD-,SARSA-およびQ-ラーニングのための新しいアルゴリズムを提案する。
これらのアルゴリズムにFinal Adaptation RL(FARL)と呼ばれる新しい要素を追加します。
論文 参考訳(メタデータ) (2021-11-29T08:36:39Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Minimax Strikes Back [10.485343576893865]
Deep Reinforcement Learningは、多くの完全な情報ゲームで超人的なプレイレベルに達します。
我々は、MCTSの代わりにMinimaxアルゴリズムを用いてDRLに別のアプローチを採り、ポリシーではなく状態の評価のみを学習する。
私たちは、複数のゲームでは、学習パフォーマンスと対立のための芸術DRLの状態と競争力があることを示しています。
論文 参考訳(メタデータ) (2020-12-19T14:42:41Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文 参考訳(メタデータ) (2020-08-15T22:18:20Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - StarCraft II Build Order Optimization using Deep Reinforcement Learning
and Monte-Carlo Tree Search [0.0]
本研究では,モンテカルロ木探索アルゴリズムに基づくエージェントを用いて,StarCraft IIのビルド順序を最適化する手法を提案する。
より深い強化学習ニューラルネットワークと組み合わせることで、そのパフォーマンスをさらに向上する方法について論じる。
論文 参考訳(メタデータ) (2020-06-12T08:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。