論文の概要: Monte Carlo Tree Search with Boltzmann Exploration
- arxiv url: http://arxiv.org/abs/2404.07732v1
- Date: Thu, 11 Apr 2024 13:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:59:46.694526
- Title: Monte Carlo Tree Search with Boltzmann Exploration
- Title(参考訳): ボルツマン探査によるモンテカルロ木探索
- Authors: Michael Painter, Mohamed Baioumy, Nick Hawes, Bruno Lacerda,
- Abstract要約: 本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。
我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 16.06815496704043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte-Carlo Tree Search (MCTS) methods, such as Upper Confidence Bound applied to Trees (UCT), are instrumental to automated planning techniques. However, UCT can be slow to explore an optimal action when it initially appears inferior to other actions. Maximum ENtropy Tree-Search (MENTS) incorporates the maximum entropy principle into an MCTS approach, utilising Boltzmann policies to sample actions, naturally encouraging more exploration. In this paper, we highlight a major limitation of MENTS: optimal actions for the maximum entropy objective do not necessarily correspond to optimal actions for the original objective. We introduce two algorithms, Boltzmann Tree Search (BTS) and Decaying ENtropy Tree-Search (DENTS), that address these limitations and preserve the benefits of Boltzmann policies, such as allowing actions to be sampled faster by using the Alias method. Our empirical analysis shows that our algorithms show consistent high performance across several benchmark domains, including the game of Go.
- Abstract(参考訳): 木 (UCT) に適用されたアッパー信頼境界 (Upper Confidence Bound) のようなモンテカルロ木探索 (MCTS) 手法は、自動計画手法に欠かせないものである。
しかし、UDTは他の行動に劣ると最適な行動を探すのが遅くなる可能性がある。
最大エントロピー木探索(MENTS)は最大エントロピー原理をMCTSアプローチに取り入れ、ボルツマンの政策を利用して行動のサンプリングを行い、自然にさらなる探索を奨励する。
最大エントロピー目的に対する最適アクションは、必ずしも元の目的に対する最適アクションに対応しない。
本稿では,Boltzmann Tree Search (BTS) とDecaying ENtropy Tree-Search (DENTS) という2つのアルゴリズムを導入する。
実験により,Goのゲームを含むいくつかのベンチマーク領域において,アルゴリズムが一貫した性能を示すことを示す。
関連論文リスト
- Approximate Dec-POMDP Solving Using Multi-Agent A* [8.728372851272727]
有限水平DEC-POMDPに対するポリシを計算するためのA*アルゴリズムを提案する。
私たちのゴールは、より大きな地平線に対するスケーラビリティを優先して、最適性を犠牲にすることです。
論文 参考訳(メタデータ) (2024-05-09T10:33:07Z) - Sample-and-Bound for Non-Convex Optimization [18.30858789210194]
我々はモンテカルロのベンチマークに適応して効率を向上する非次元目的最適化のための新しいサンプリング手法を提案する。
提案する高次ベースラインおよび競合ベンチマークアルゴリズムを積極的に評価する。
論文 参考訳(メタデータ) (2024-01-09T20:45:47Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - SoftTreeMax: Policy Gradient with Tree Search [72.9513807133171]
我々は、ツリー検索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介します。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
論文 参考訳(メタデータ) (2022-09-28T09:55:47Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Social Interpretable Tree for Pedestrian Trajectory Prediction [75.81745697967608]
本稿では,このマルチモーダル予測課題に対処するため,SIT(Social Interpretable Tree)と呼ばれる木に基づく手法を提案する。
木の根から葉までの経路は、個々の将来の軌跡を表す。
ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。
論文 参考訳(メタデータ) (2022-05-26T12:18:44Z) - An Efficient Dynamic Sampling Policy For Monte Carlo Tree Search [0.0]
我々は、強化学習の枠組みであるモンテカルロ木探索(MCTS)の中で、人気の木に基づく探索戦略を考える。
本稿では,木根ノードにおける最適な行動の選択の確率を最大化するために,限られた計算予算を効率的に割り当てる動的サンプリングツリーポリシーを提案する。
論文 参考訳(メタデータ) (2022-04-26T02:39:18Z) - CITS: Coherent Ising Tree Search Algorithm Towards Solving Combinatorial
Optimization Problems [0.0]
本稿では、マルコフ連鎖からSAに基づく奥行き制限木への探索空間の拡大による探索アルゴリズムを提案する。
それぞれのイテレーションにおいて、このアルゴリズムは、先を見据えて、木に沿って探索することで、実現可能な探索空間内で最高の準最適解を選択する」。
以上の結果から,IsingのNP最適化問題に対する高次木探索戦略は,より少ないエポックの範囲で解決可能であることが示唆された。
論文 参考訳(メタデータ) (2022-03-09T10:07:26Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Bayesian optimization for backpropagation in Monte-Carlo tree search [1.52292571922932]
バックプロパゲーション戦略を改善するための従来の試みを一般化した,Softmax MCTS と Monotone MCTS の2つの手法を提案する。
提案手法が従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-25T14:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。