論文の概要: LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios
- arxiv url: http://arxiv.org/abs/2310.08348v1
- Date: Thu, 12 Oct 2023 14:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:09:52.839576
- Title: LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios
- Title(参考訳): lightzero: 一般的な逐次決定シナリオにおけるモンテカルロ木探索の統一ベンチマーク
- Authors: Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren,
Shuai Hu, Hongsheng Li, Yu Liu
- Abstract要約: 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
- 参考スコア(独自算出の注目度): 32.83545787965431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agents based on tree-search planning capabilities with learned
models has achieved remarkable success in classic decision-making problems,
such as Go and Atari. However, it has been deemed challenging or even
infeasible to extend Monte Carlo Tree Search (MCTS) based algorithms to diverse
real-world applications, especially when these environments involve complex
action spaces and significant simulation costs, or inherent stochasticity. In
this work, we introduce LightZero, the first unified benchmark for deploying
MCTS/MuZero in general sequential decision scenarios. Specificially, we
summarize the most critical challenges in designing a general MCTS-style
decision-making solver, then decompose the tightly-coupled algorithm and system
design of tree-search RL methods into distinct sub-modules. By incorporating
more appropriate exploration and optimization strategies, we can significantly
enhance these sub-modules and construct powerful LightZero agents to tackle
tasks across a wide range of domains, such as board games, Atari, MuJoCo,
MiniGrid and GoBigger. Detailed benchmark results reveal the significant
potential of such methods in building scalable and efficient decision
intelligence. The code is available as part of OpenDILab at
https://github.com/opendilab/LightZero.
- Abstract(参考訳): 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
しかし、モンテカルロ木探索 (mcts) に基づくアルゴリズムを様々な実世界応用に拡張することは、特に複雑な動作空間や大きなシミュレーションコスト、あるいは固有の確率性を伴う場合、困難あるいは不可能であると考えられている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
具体的には、一般MCTS型決定解法の設計における最も重要な課題を要約し、木探索RL法の密結合アルゴリズムとシステム設計を別個のサブモジュールに分解する。
より適切な探索と最適化戦略を導入することで、これらのサブモジュールを大幅に強化し、ボードゲーム、atari、mujoco、minigrid、gobiggerなど、幅広いドメインのタスクに取り組む強力なlightzeroエージェントを構築することができます。
詳細なベンチマークの結果は、スケーラブルで効率的な意思決定インテリジェンスを構築する上で、そのような方法が有意義であることを示している。
コードはOpenDILabのhttps://github.com/opendilab/LightZero.comで公開されている。
関連論文リスト
- Multi-Agent Environments for Vehicle Routing Problems [1.0179489519625304]
本稿では,従来の車両ルーティング問題をシミュレートするマルチエージェント環境からなるライブラリを提案する。
PyTorch上に構築されたこのライブラリは、新しいルーティング問題のカスタマイズと導入を容易にする、柔軟なモジュラーアーキテクチャ設計を提供する。
論文 参考訳(メタデータ) (2024-11-21T18:46:23Z) - Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - An Evolutionary Framework for Connect-4 as Test-Bed for Comparison of Advanced Minimax, Q-Learning and MCTS [0.0]
本稿では,RL,Minimax,Monte Carlo木探索(MCTS)という3種類のアルゴリズムの進化的枠組みを考案した。
MCTSが勝利率で最高の結果を得るのに対し,MinimaxとQ-Learningはそれぞれ第2位と第3位にランクされていることを示す。
論文 参考訳(メタデータ) (2024-05-26T15:11:45Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z) - Unlucky Explorer: A Complete non-Overlapping Map Exploration [0.949996206597248]
エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として,Maze Dashパズルを紹介した。
提案したモンテカルロ木探索(MCTS)アルゴリズムに最適化を適用し,有望な結果を得た。
比較の結果,MCTSをベースとしたアプローチは,テストケースの小型化と中型化を両立させる手法であることがわかった。
論文 参考訳(メタデータ) (2020-05-28T17:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。