論文の概要: Monte Carlo Tree Search with Boltzmann Exploration
- arxiv url: http://arxiv.org/abs/2404.07732v1
- Date: Thu, 11 Apr 2024 13:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:59:46.694526
- Title: Monte Carlo Tree Search with Boltzmann Exploration
- Title(参考訳): ボルツマン探査によるモンテカルロ木探索
- Authors: Michael Painter, Mohamed Baioumy, Nick Hawes, Bruno Lacerda,
- Abstract要約: 本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。
我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 16.06815496704043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte-Carlo Tree Search (MCTS) methods, such as Upper Confidence Bound applied to Trees (UCT), are instrumental to automated planning techniques. However, UCT can be slow to explore an optimal action when it initially appears inferior to other actions. Maximum ENtropy Tree-Search (MENTS) incorporates the maximum entropy principle into an MCTS approach, utilising Boltzmann policies to sample actions, naturally encouraging more exploration. In this paper, we highlight a major limitation of MENTS: optimal actions for the maximum entropy objective do not necessarily correspond to optimal actions for the original objective. We introduce two algorithms, Boltzmann Tree Search (BTS) and Decaying ENtropy Tree-Search (DENTS), that address these limitations and preserve the benefits of Boltzmann policies, such as allowing actions to be sampled faster by using the Alias method. Our empirical analysis shows that our algorithms show consistent high performance across several benchmark domains, including the game of Go.
- Abstract(参考訳): 木 (UCT) に適用されたアッパー信頼境界 (Upper Confidence Bound) のようなモンテカルロ木探索 (MCTS) 手法は、自動計画手法に欠かせないものである。
しかし、UDTは他の行動に劣ると最適な行動を探すのが遅くなる可能性がある。
最大エントロピー木探索(MENTS)は最大エントロピー原理をMCTSアプローチに取り入れ、ボルツマンの政策を利用して行動のサンプリングを行い、自然にさらなる探索を奨励する。
最大エントロピー目的に対する最適アクションは、必ずしも元の目的に対する最適アクションに対応しない。
本稿では,Boltzmann Tree Search (BTS) とDecaying ENtropy Tree-Search (DENTS) という2つのアルゴリズムを導入する。
実験により,Goのゲームを含むいくつかのベンチマーク領域において,アルゴリズムが一貫した性能を示すことを示す。
関連論文リスト
- Anytime Probabilistically Constrained Provably Convergent Online Belief Space Planning [7.081396107231381]
連続領域におけるモンテカルロ木探索法 (MCTS) を用いた随時アプローチを提案する。
我々はアルゴリズムのバージョンの指数率で確率収束を証明し、広範囲なシミュレーションを通して提案手法を検証した。
論文 参考訳(メタデータ) (2024-11-11T04:42:18Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization [18.25487451605638]
状態占有度を正則化した政策最適化に基づく木探索アルゴリズムを導出し,それをボリュームMCTSと呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
論文 参考訳(メタデータ) (2024-07-07T22:58:52Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Approximate Dec-POMDP Solving Using Multi-Agent A* [8.728372851272727]
有限水平DEC-POMDPに対するポリシを計算するためのA*アルゴリズムを提案する。
私たちのゴールは、より大きな地平線に対するスケーラビリティを優先して、最適性を犠牲にすることです。
論文 参考訳(メタデータ) (2024-05-09T10:33:07Z) - Sample-and-Bound for Non-Convex Optimization [18.30858789210194]
我々はモンテカルロのベンチマークに適応して効率を向上する非次元目的最適化のための新しいサンプリング手法を提案する。
提案する高次ベースラインおよび競合ベンチマークアルゴリズムを積極的に評価する。
論文 参考訳(メタデータ) (2024-01-09T20:45:47Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Social Interpretable Tree for Pedestrian Trajectory Prediction [75.81745697967608]
本稿では,このマルチモーダル予測課題に対処するため,SIT(Social Interpretable Tree)と呼ばれる木に基づく手法を提案する。
木の根から葉までの経路は、個々の将来の軌跡を表す。
ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。
論文 参考訳(メタデータ) (2022-05-26T12:18:44Z) - An Efficient Dynamic Sampling Policy For Monte Carlo Tree Search [0.0]
我々は、強化学習の枠組みであるモンテカルロ木探索(MCTS)の中で、人気の木に基づく探索戦略を考える。
本稿では,木根ノードにおける最適な行動の選択の確率を最大化するために,限られた計算予算を効率的に割り当てる動的サンプリングツリーポリシーを提案する。
論文 参考訳(メタデータ) (2022-04-26T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。