論文の概要: An Evolutionary Framework for Connect-4 as Test-Bed for Comparison of Advanced Minimax, Q-Learning and MCTS
- arxiv url: http://arxiv.org/abs/2405.16595v1
- Date: Sun, 26 May 2024 15:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:19:32.304659
- Title: An Evolutionary Framework for Connect-4 as Test-Bed for Comparison of Advanced Minimax, Q-Learning and MCTS
- Title(参考訳): テストベッドとしてのConnect-4の進化的フレームワーク : 高度なミニマックス, Q-Learning, MCTSの比較
- Authors: Henry Taylor, Leonardo Stella,
- Abstract要約: 本稿では,RL,Minimax,Monte Carlo木探索(MCTS)という3種類のアルゴリズムの進化的枠組みを考案した。
MCTSが勝利率で最高の結果を得るのに対し,MinimaxとQ-Learningはそれぞれ第2位と第3位にランクされていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in decision making domains with large state spaces is to effectively select actions which maximize utility. In recent years, approaches such as reinforcement learning (RL) and search algorithms have been successful to tackle this issue, despite their differences. RL defines a learning framework that an agent explores and interacts with. Search algorithms provide a formalism to search for a solution. However, it is often difficult to evaluate the performances of such approaches in a practical way. Motivated by this problem, we focus on one game domain, i.e., Connect-4, and develop a novel evolutionary framework to evaluate three classes of algorithms: RL, Minimax and Monte Carlo tree search (MCTS). The contribution of this paper is threefold: i) we implement advanced versions of these algorithms and provide a systematic comparison with their standard counterpart, ii) we develop a novel evaluation framework, which we call the Evolutionary Tournament, and iii) we conduct an extensive evaluation of the relative performance of each algorithm to compare our findings. We evaluate different metrics and show that MCTS achieves the best results in terms of win percentage, whereas Minimax and Q-Learning are ranked in second and third place, respectively, although the latter is shown to be the fastest to make a decision.
- Abstract(参考訳): 大きな状態空間を持つドメインを決定する上での大きな課題は、有効性を最大化するアクションを効果的に選択することである。
近年, 強化学習 (RL) や探索アルゴリズムなどの手法は, 違いはあるものの, この問題に対処することに成功している。
RLは、エージェントが探索し、相互作用する学習フレームワークを定義する。
探索アルゴリズムは、解を探索するフォーマリズムを提供する。
しかし,このような手法を実践的に評価することはしばしば困難である。
この問題に触発されて、我々は1つのゲーム領域、すなわちConnect-4に焦点を当て、RL、Minimax、Monte Carlo Tree Search(MCTS)という3つのアルゴリズムのクラスを評価する新しい進化的フレームワークを開発する。
本論文の貢献は以下の3つである。
一 これらのアルゴリズムの先進版を実装し、その標準版と体系的に比較する。
二 進化トーナメントと呼ぶ新しい評価枠組みを整備し、
三 それぞれのアルゴリズムの相対性能を広範囲に評価し、結果を比較する。
我々は,MCTSが勝利率で最高の結果を得るのに対して,MinimaxとQ-Learningはそれぞれ2位,Q-Learningは3位であるが,後者は決定を下すのが最速であることが示されている。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - MARL-LNS: Cooperative Multi-agent Reinforcement Learning via Large Neighborhoods Search [27.807695570974644]
本稿では,エージェントのサブセットを交互にトレーニングすることで,問題に対処するための一般的なトレーニングフレームワークであるMARL-LNSを提案する。
我々のアルゴリズムは、トレーニング時間の少なくとも10%を自動で削減し、元のアルゴリズムと同じ最終スキルレベルに到達できることを示します。
論文 参考訳(メタデータ) (2024-04-03T22:51:54Z) - LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios [32.83545787965431]
学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
論文 参考訳(メタデータ) (2023-10-12T14:18:09Z) - A Critical Re-evaluation of Benchmark Datasets for (Deep) Learning-Based
Matching Algorithms [11.264467955516706]
確立された13のデータセットの難易度と適切性を評価するための4つの手法を提案する。
一般的なデータセットの多くは、かなり簡単な分類タスクを処理している。
ベンチマークデータセットを得るための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-03T07:54:54Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Online Baum-Welch algorithm for Hierarchical Imitation Learning [7.271970309320002]
オプションフレームワークで階層的な模倣学習を行うためのオンラインアルゴリズムを提案する。
このアプローチは離散環境と連続環境の両方でうまく機能することを示す。
論文 参考訳(メタデータ) (2021-03-22T22:03:25Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。