論文の概要: Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency
- arxiv url: http://arxiv.org/abs/2504.07757v1
- Date: Thu, 10 Apr 2025 13:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:36.603497
- Title: Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency
- Title(参考訳): Search-Contempt:より優れた計算効率でAlphaZeroライクなエンジンをトレーニングするためのハイブリッドMCTSアルゴリズム
- Authors: Ameya Joshi,
- Abstract要約: 本稿では,MCTS アルゴリズムの新たなハイブリッド版である Search-Contempt を紹介する。
検索エンジンはOdds Chessのエンジンに大きな力を与えている。
これは、より計算効率のよいセルフプレイベースのエンジンをトレーニングする可能性を開く。
- 参考スコア(独自算出の注目度): 4.347762994353093
- License:
- Abstract: AlphaZero in 2017 was able to master chess and other games without human knowledge by playing millions of games against itself (self-play), with a computation budget running in the tens of millions of dollars. It used a variant of the Monte Carlo Tree Search (MCTS) algorithm, known as PUCT. This paper introduces search-contempt, a novel hybrid variant of the MCTS algorithm that fundamentally alters the distribution of positions generated in self-play, preferring more challenging positions. In addition, search-contempt has been shown to give a big boost in strength for engines in Odds Chess (where one side receives an unfavorable position from the start). More significantly, it opens up the possibility of training a self-play based engine, in a much more computationally efficient manner with the number of training games running into hundreds of thousands, costing tens of thousands of dollars (instead of tens of millions of training games costing millions of dollars required by AlphaZero). This means that it may finally be possible to train such a program from zero on a standard consumer GPU even with a very limited compute, cost, or time budget.
- Abstract(参考訳): 2017年、AlphaZeroはチェスやその他のゲームを人間に知られずに習得し(セルフプレイ)、計算予算は数千万ドルにのぼる。
PUCTとして知られるモンテカルロ木探索(MCTS)アルゴリズムの変種を使用した。
本稿では,MCTSアルゴリズムの新たなハイブリッド版であるサーチ・コントラストを導入し,より困難な位置を優先して,自己再生で生成された位置の分布を根本的に変更する。
さらに、Odds Chess(一方が最初から好ましくない位置を受信する)のエンジンには、検索のコントラストが大きな力を与えていることが示されている。
数十万のトレーニングゲームが実行され、何万ドルもの費用がかかる(AlphaZeroが要求する数百万ドルのトレーニングゲームの代わりに)。
これは、計算量、コスト、時間予算が極めて限られている場合でも、最終的にそのようなプログラムを標準のコンシューマGPUでゼロからトレーニングすることが可能であることを意味する。
関連論文リスト
- Mastering Chinese Chess AI (Xiangqi) Without Search [2.309569018066392]
我々は,検索アルゴリズムに頼らずに動作する高性能な中国チェスAIを開発した。
このAIは、人間の上位0.1%のプレイヤーと競争する能力を示した。
論文 参考訳(メタデータ) (2024-10-07T09:27:51Z) - Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms [71.73971094342349]
オンライン学習によるセルフプレイは、大規模な2人プレイのゼロサムゲームを解くための重要な方法の1つだ。
我々は,OMWUが支払行列のサイズに対数依存するなど,いくつかの利点があることを示した。
我々は、過去のことをすぐに忘れない幅広い種類のアルゴリズムが、すべて同じ問題に悩まされていることを証明している。
論文 参考訳(メタデータ) (2024-06-15T13:26:17Z) - Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Spending Thinking Time Wisely: Accelerating MCTS with Virtual Expansions [89.89612827542972]
本稿では,モンテカルロ木探索 (MCTS) の変種を提案する。
9倍のGoボードゲームとAtariゲームの性能と計算結果を評価した。
実験の結果,提案手法は,平均検索時間50%以下で,元の検索アルゴリズムに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-23T06:39:20Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - Dual Monte Carlo Tree Search [0.0]
我々はDual MCTSが、様々な対称ゲームや非対称ゲームにおいて最も広く使われているニューラルMCTSアルゴリズムであるAlphaZeroよりも優れていることを示す。
デュアルMCTSは、2つの異なる検索木、単一のディープニューラルネットワーク、PUCB、スライドウィンドウ、およびepsilon-greedyアルゴリズムの組み合わせを使用して検索木のための新しい更新技術を使用しています。
論文 参考訳(メタデータ) (2021-03-21T23:34:11Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search [66.34387649910046]
モンテカルロ木探索(MCTS)は、囲碁やアタリゲームなど多くの領域で最先端の結果を得た。
我々は,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:49:25Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。