論文の概要: Variance-Aware Prior-Based Tree Policies for Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2512.21648v1
- Date: Thu, 25 Dec 2025 12:25:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:00.408736
- Title: Variance-Aware Prior-Based Tree Policies for Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索のための変数対応事前木ポリシー
- Authors: Maximilian Weichart,
- Abstract要約: モンテカルロ木探索(MCTS)は強化学習(RL)に大きな影響を与えた
Inverse-RPO は,任意の UCB から事前ベース UCT を体系的に導出する一般的な手法である。
実験により、これらの分散に注意した事前ベースUCTは、追加の計算コストを発生させることなく、PUCTを複数のベンチマークで上回ることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Monte Carlo Tree Search (MCTS) has profoundly influenced reinforcement learning (RL) by integrating planning and learning in tasks requiring long-horizon reasoning, exemplified by the AlphaZero family of algorithms. Central to MCTS is the search strategy, governed by a tree policy based on an upper confidence bound (UCB) applied to trees (UCT). A key factor in the success of AlphaZero is the introduction of a prior term in the UCB1-based tree policy PUCT, which improves exploration efficiency and thus accelerates training. While many alternative UCBs with stronger theoretical guarantees than UCB1 exist, extending them to prior-based UCTs has been challenging, since PUCT was derived empirically rather than from first principles. Recent work retrospectively justified PUCT by framing MCTS as a regularized policy optimization (RPO) problem. Building on this perspective, we introduce Inverse-RPO, a general methodology that systematically derives prior-based UCTs from any prior-free UCB. Applying this method to the variance-aware UCB-V, we obtain two new prior-based tree policies that incorporate variance estimates into the search. Experiments indicate that these variance-aware prior-based UCTs outperform PUCT across multiple benchmarks without incurring additional computational cost. We also provide an extension of the mctx library supporting variance-aware UCTs, showing that the required code changes are minimal and intended to facilitate further research on principled prior-based UCTs. Code: github.com/Max-We/inverse-rpo.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は、AlphaZeroのアルゴリズムのファミリによって実証された、長期的推論を必要とするタスクに計画と学習を統合することで、強化学習(RL)に大きな影響を与えている。
MCTSの中心は探索戦略であり、木に適用される上位信頼境界(UCB)に基づく木ポリシーによって統治される。
AlphaZeroの成功の重要な要因は、UCB1ベースのツリーポリシーPUCTの事前項の導入である。
UCB1よりも強い理論的保証を持つ多くの代替UCBが存在するが、PUCTは第一原理からではなく経験的に派生したものであるため、それらを以前のUCTに拡張することは困難である。
最近の研究は、規則化政策最適化(RPO)問題としてMCTSをフレーミングすることでPUCTを遡及的に正当化している。
この観点からInverse-RPO(逆RPO)という手法を導入し,従来の UCT を任意の UCB から体系的に導出する手法を提案する。
この手法を分散を考慮した UCB-V に適用し、分散推定を探索に組み込んだ2つの事前木ポリシーを得る。
実験により、これらの分散に注意した事前ベースUCTは、追加の計算コストを発生させることなく、PUCTを複数のベンチマークで上回ることを示した。
また、分散対応CTをサポートする mctx ライブラリの拡張も提供し、必要となるコード変更が最小限であり、原則化された事前ベース UCT のさらなる研究を促進することを意図していることを示す。
コード:github.com/Max-We/inverse-rpo。
関連論文リスト
- TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [45.99743804547533]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning [1.6574413179773757]
我々は,MAB文献のより詳細な理論的理解が,既存の計画アルゴリズムの改善に役立つことを示す。
本稿では, UCB1-Normal bandit を用いた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案する。
論文 参考訳(メタデータ) (2023-05-16T22:46:37Z) - Principled Exploration via Optimistic Bootstrapping and Backward
Induction [84.78836146128238]
最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
論文 参考訳(メタデータ) (2021-05-13T01:15:44Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。