論文の概要: An Efficient Dynamic Sampling Policy For Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2204.12043v1
- Date: Tue, 26 Apr 2022 02:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 15:24:49.747095
- Title: An Efficient Dynamic Sampling Policy For Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索のための効率的な動的サンプリングポリシー
- Authors: Gongbo Zhang, Yijie Peng, Yilong Xu
- Abstract要約: 我々は、強化学習の枠組みであるモンテカルロ木探索(MCTS)の中で、人気の木に基づく探索戦略を考える。
本稿では,木根ノードにおける最適な行動の選択の確率を最大化するために,限られた計算予算を効率的に割り当てる動的サンプリングツリーポリシーを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the popular tree-based search strategy within the framework of
reinforcement learning, the Monte Carlo Tree Search (MCTS), in the context of
finite-horizon Markov decision process. We propose a dynamic sampling tree
policy that efficiently allocates limited computational budget to maximize the
probability of correct selection of the best action at the root node of the
tree. Experimental results on Tic-Tac-Toe and Gomoku show that the proposed
tree policy is more efficient than other competing methods.
- Abstract(参考訳): 我々は,強化学習の枠組みであるモンテカルロ木探索(mcts)において,有限ホリゾンマルコフ決定過程の文脈において,一般的な木ベース探索戦略を考える。
本稿では,木根ノードにおける最適動作の正しい選択確率を最大化するために,限られた計算予算を効率的に割り当てる動的サンプリングツリーポリシーを提案する。
Tic-Tac-Toe と Gomoku の実験結果は,提案手法が他の競合手法よりも効率的であることを示している。
関連論文リスト
- Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:04:53Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Monte Carlo Tree Search with Boltzmann Exploration [16.06815496704043]
本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。
我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-11T13:25:35Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - RJHMC-Tree for Exploration of the Bayesian Decision Tree Posterior [1.3351610617039973]
本論文はベイジアンアプローチを用いてデータから決定木を学習することを目的としている。
ハミルトンモンテカルロ (HMC) アプローチを用いてベイズ決定木の後方をより効率的に探索する。
論文 参考訳(メタデータ) (2023-12-04T02:23:32Z) - UNSAT Solver Synthesis via Monte Carlo Forest Search [10.754275929551593]
木MDPにおける学習ポリシーのための強化学習(RL)アルゴリズムであるモンテカルロ森林探索(MCFS)を紹介する。
そのような問題の例としては、SAT公式の不満足性の証明、SAT公式の解の数を数えることがある。
我々は,満足度(SAT)問題を解決するためにDPLL分岐ポリシーを学習するMCFSアルゴリズムであるKnuth Synthesisをダブした。
論文 参考訳(メタデータ) (2022-11-22T20:52:50Z) - Contextual Decision Trees [62.997667081978825]
学習アンサンブルの1つの浅い木を特徴量ベースで選択するための,マルチアームのコンテキスト付きバンドレコメンデーションフレームワークを提案する。
トレーニングされたシステムはランダムフォレスト上で動作し、最終的な出力を提供するためのベース予測器を動的に識別する。
論文 参考訳(メタデータ) (2022-07-13T17:05:08Z) - Social Interpretable Tree for Pedestrian Trajectory Prediction [75.81745697967608]
本稿では,このマルチモーダル予測課題に対処するため,SIT(Social Interpretable Tree)と呼ばれる木に基づく手法を提案する。
木の根から葉までの経路は、個々の将来の軌跡を表す。
ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。
論文 参考訳(メタデータ) (2022-05-26T12:18:44Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。