論文の概要: Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization
- arxiv url: http://arxiv.org/abs/2407.05511v1
- Date: Sun, 7 Jul 2024 22:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:29:37.377082
- Title: Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization
- Title(参考訳): モンテカルロ木探索における状態占有規則化による高効率長期探査
- Authors: Liam Schramm, Abdeslam Boularias,
- Abstract要約: 状態占有度を正則化した政策最適化に基づく木探索アルゴリズムを導出し,それをボリュームMCTSと呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
- 参考スコア(独自算出の注目度): 18.25487451605638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo tree search (MCTS) has been successful in a variety of domains, but faces challenges with long-horizon exploration when compared to sampling-based motion planning algorithms like Rapidly-Exploring Random Trees. To address these limitations of MCTS, we derive a tree search algorithm based on policy optimization with state occupancy measure regularization, which we call {\it Volume-MCTS}. We show that count-based exploration and sampling-based motion planning can be derived as approximate solutions to this state occupancy measure regularized objective. We test our method on several robot navigation problems, and find that Volume-MCTS outperforms AlphaZero and displays significantly better long-horizon exploration properties.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は様々な領域で成功しているが、Rapidly-Exploring Random Treesのようなサンプリングベースモーションプランニングアルゴリズムと比較すると、長い水平探索の課題に直面している。
MCTS のこれらの制限に対処するため,政策最適化と状態占有度測定正則化に基づく木探索アルゴリズムを導出し,これを {\it Volume-MCTS} と呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。
我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。
RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-09-15T02:07:28Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Monte Carlo Tree Search with Boltzmann Exploration [16.06815496704043]
本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。
我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-11T13:25:35Z) - Amplifying Exploration in Monte-Carlo Tree Search by Focusing on the
Unknown [19.664506834858244]
モンテカルロ木探索(MCTS)は、探索木の有望なセグメントに焦点を合わせるために、戦略的に計算資源を割り当てる。
提案手法はAmEx-MCTSと呼ばれ,新しいMCTSの定式化を導入することでこの問題を解決する。
実験による評価は,AMEx-MCTSの優れた性能を示し,従来のMCTSと関連するアプローチを実質的なマージンで上回っている。
論文 参考訳(メタデータ) (2024-02-13T15:05:54Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search [66.34387649910046]
モンテカルロ木探索(MCTS)は、囲碁やアタリゲームなど多くの領域で最先端の結果を得た。
我々は,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:49:25Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z) - Broadly-Exploring, Local-Policy Trees for Long-Horizon Task Planning [12.024736761925864]
現実的な環境での長期計画には、高次元状態空間における逐次的なタスクを推論する能力が必要である。
本稿では,タスク条件付きモデルベースツリー探索であるBroadly-Exploring-Local-policy Trees (BELT)を提案する。
BELTは、目標条件付きポリシーを順に計画し、堅牢な計画を生成することができるように実験的に実証されている。
論文 参考訳(メタデータ) (2020-10-13T15:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。