論文の概要: Accelerating Monte-Carlo Tree Search with Optimized Posterior Policies
- arxiv url: http://arxiv.org/abs/2601.01301v2
- Date: Fri, 09 Jan 2026 01:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 13:49:32.190165
- Title: Accelerating Monte-Carlo Tree Search with Optimized Posterior Policies
- Title(参考訳): 最適化後処理によるモンテカルロ木探索の高速化
- Authors: Keith Frankston, Benjamin Howard,
- Abstract要約: RMCTSは、単一のルート状態の探索において、MCTS-UCBの40倍以上高速である。
RMCTSトレーニングネットワークは,トレーニング時間の約3分の1で,MCTSトレーニングネットワークの品質と一致していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a recursive AlphaZero-style Monte--Carlo tree search algorithm, "RMCTS". The advantage of RMCTS over AlphaZero's MCTS-UCB is speed. In RMCTS, the search tree is explored in a breadth-first manner, so that network inferences naturally occur in large batches. This significantly reduces the GPU latency cost. We find that RMCTS is often more than 40 times faster than MCTS-UCB when searching a single root state, and about 3 times faster when searching a large batch of root states. The recursion in RMCTS is based on computing optimized posterior policies at each game state in the search tree, starting from the leaves and working back up to the root. Here we use the posterior policy explored in "Monte--Carlo tree search as regularized policy optimization" (Grill, et al.) Their posterior policy is the unique policy which maximizes the expected reward given estimated action rewards minus a penalty for diverging from the prior policy. The tree explored by RMCTS is not defined in an adaptive manner, as it is in MCTS-UCB. Instead, the RMCTS tree is defined by following prior network policies at each node. This is a disadvantage, but the speedup advantage is more significant, and in practice we find that RMCTS-trained networks match the quality of MCTS-UCB-trained networks in roughly one-third of the training time. We include timing and quality comparisons of RMCTS vs. MCTS-UCB for three games: Connect-4, Dots-and-Boxes, and Othello.
- Abstract(参考訳): 本稿では,AlphaZero方式のモンテカルロ木探索アルゴリズムRMCTSを提案する。
AlphaZeroのMCTS-UCBに対するRCCTSの利点はスピードである。
RMCTSでは、探索木は幅優先で探索されるため、ネットワーク推論は大きなバッチで自然に発生する。
これにより、GPUのレイテンシコストが大幅に削減される。
RMCTSは1つのルート状態の探索ではMCTS-UCBの40倍以上高速であり、大きなルート状態の探索では3倍高速であることがわかった。
RMCTSの再帰は、検索ツリーの各ゲーム状態における最適化された後続ポリシーに基づいており、葉から根まで遡る。
ここでは,「モンテ・カルロ木探索を正規化政策最適化として活用する」という後続政策を用いる(Grill, et al )。
RMCTSによって探索された木は、MCTS-UCBのように適応的に定義されていない。
その代わり、RTCTSツリーは各ノードで事前のネットワークポリシーに従うことで定義される。
これは不利であるが、スピードアップの利点はより重要であり、実際に、MCTS-UCB-トレーニングネットワークはトレーニング時間のおよそ3分の1で、MCTS-UCB-トレーニングネットワークの品質と一致している。
Connect-4、Dots-and-Boxes、Othelloの3つのゲームでRTCTSとMCTS-UCBのタイミングと品質を比較した。
関連論文リスト
- Variance-Aware Prior-Based Tree Policies for Monte Carlo Tree Search [0.0]
モンテカルロ木探索(MCTS)は強化学習(RL)に大きな影響を与えた
Inverse-RPO は,任意の UCB から事前ベース UCT を体系的に導出する一般的な手法である。
実験により、これらの分散に注意した事前ベースUCTは、追加の計算コストを発生させることなく、PUCTを複数のベンチマークで上回ることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:25:26Z) - Parallelizing Tree Search with Twice Sequential Monte Carlo [7.863528049670872]
我々はモンテカルロ木探索 (MCTS) アルゴリズムの代替として, TSMCTS (Twice Sequential Monte Carlo Tree Search) を提案する。
TSMCTSは並列化が容易で、GPUアクセラレーションに適している。
TSMCTSは,SMCの並列化を自然にする特性を維持しつつ,逐次計算と良好にスケール可能であることを示す。
論文 参考訳(メタデータ) (2025-11-18T07:54:29Z) - Anytime Sequential Halving in Monte-Carlo Tree Search [1.3820916757781068]
本稿では,任意のタイミングで停止し,良好な結果を返すアルゴリズムの任意のバージョンを提案する。
合成MAB問題と10の異なるボードゲームにおける経験的結果から、アルゴリズムの性能がSequential Halving や UCB1と競合していることが示されている。
論文 参考訳(メタデータ) (2024-11-11T17:49:47Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Amplifying Exploration in Monte-Carlo Tree Search by Focusing on the
Unknown [19.664506834858244]
モンテカルロ木探索(MCTS)は、探索木の有望なセグメントに焦点を合わせるために、戦略的に計算資源を割り当てる。
提案手法はAmEx-MCTSと呼ばれ,新しいMCTSの定式化を導入することでこの問題を解決する。
実験による評価は,AMEx-MCTSの優れた性能を示し,従来のMCTSと関連するアプローチを実質的なマージンで上回っている。
論文 参考訳(メタデータ) (2024-02-13T15:05:54Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Spending Thinking Time Wisely: Accelerating MCTS with Virtual Expansions [89.89612827542972]
本稿では,モンテカルロ木探索 (MCTS) の変種を提案する。
9倍のGoボードゲームとAtariゲームの性能と計算結果を評価した。
実験の結果,提案手法は,平均検索時間50%以下で,元の検索アルゴリズムに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-23T06:39:20Z) - Prioritized Architecture Sampling with Monto-Carlo Tree Search [54.72096546595955]
ワンショットニューラルアーキテクチャサーチ(NAS)法は,検索空間全体を1つのネットワークとして考えることにより,検索コストを大幅に削減する。
本稿では,モンテカルロ木(MCT)をモデルとした探索空間を用いたモンテカルロ木探索(MCTS)に基づくサンプリング戦略について紹介する。
公平な比較のために、CIFAR-10で評価されたマクロ検索空間、すなわちNAS-Bench-MacroのオープンソースNASベンチマークを構築する。
論文 参考訳(メタデータ) (2021-03-22T15:09:29Z) - Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search [66.34387649910046]
モンテカルロ木探索(MCTS)は、囲碁やアタリゲームなど多くの領域で最先端の結果を得た。
我々は,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。