論文の概要: LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios
- arxiv url: http://arxiv.org/abs/2310.08348v1
- Date: Thu, 12 Oct 2023 14:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:09:52.839576
- Title: LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios
- Title(参考訳): lightzero: 一般的な逐次決定シナリオにおけるモンテカルロ木探索の統一ベンチマーク
- Authors: Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren,
Shuai Hu, Hongsheng Li, Yu Liu
- Abstract要約: 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
- 参考スコア(独自算出の注目度): 32.83545787965431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agents based on tree-search planning capabilities with learned
models has achieved remarkable success in classic decision-making problems,
such as Go and Atari. However, it has been deemed challenging or even
infeasible to extend Monte Carlo Tree Search (MCTS) based algorithms to diverse
real-world applications, especially when these environments involve complex
action spaces and significant simulation costs, or inherent stochasticity. In
this work, we introduce LightZero, the first unified benchmark for deploying
MCTS/MuZero in general sequential decision scenarios. Specificially, we
summarize the most critical challenges in designing a general MCTS-style
decision-making solver, then decompose the tightly-coupled algorithm and system
design of tree-search RL methods into distinct sub-modules. By incorporating
more appropriate exploration and optimization strategies, we can significantly
enhance these sub-modules and construct powerful LightZero agents to tackle
tasks across a wide range of domains, such as board games, Atari, MuJoCo,
MiniGrid and GoBigger. Detailed benchmark results reveal the significant
potential of such methods in building scalable and efficient decision
intelligence. The code is available as part of OpenDILab at
https://github.com/opendilab/LightZero.
- Abstract(参考訳): 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
しかし、モンテカルロ木探索 (mcts) に基づくアルゴリズムを様々な実世界応用に拡張することは、特に複雑な動作空間や大きなシミュレーションコスト、あるいは固有の確率性を伴う場合、困難あるいは不可能であると考えられている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
具体的には、一般MCTS型決定解法の設計における最も重要な課題を要約し、木探索RL法の密結合アルゴリズムとシステム設計を別個のサブモジュールに分解する。
より適切な探索と最適化戦略を導入することで、これらのサブモジュールを大幅に強化し、ボードゲーム、atari、mujoco、minigrid、gobiggerなど、幅広いドメインのタスクに取り組む強力なlightzeroエージェントを構築することができます。
詳細なベンチマークの結果は、スケーラブルで効率的な意思決定インテリジェンスを構築する上で、そのような方法が有意義であることを示している。
コードはOpenDILabのhttps://github.com/opendilab/LightZero.comで公開されている。
関連論文リスト
- CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - A Probabilistic Framework for Modular Continual Learning [36.187317508121076]
PICLEと呼ばれるモジュール型連続学習フレームワークを開発した。
確率モデルを用いて探索を加速し、各構成の適合度を安価に計算する。
PICLEは,大規模検索空間にスケールしながら,異なるタイプの転送を実現する最初のモジュール型CLアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2023-06-11T00:06:57Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - An Extensible and Modular Design and Implementation of Monte Carlo Tree
Search for the JVM [0.0]
我々は,オブジェクト指向プログラミングの主要な設計原則に従う標準ライブラリとしてMCTS実装であるmctreesearch4jを紹介する。
我々は、MCTSライブラリが適切に定義されたマルコフ決定プロセスやターンベースのゲームに柔軟に適応できるように、キークラス抽象化を定義する。
我々のライブラリは、クラス継承とジェネリックタイピングを利用して、カスタムアルゴリズム定義を標準化し、モジュール的で逆向きに設計されている。
論文 参考訳(メタデータ) (2021-07-30T08:17:04Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Unlucky Explorer: A Complete non-Overlapping Map Exploration [0.949996206597248]
エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として,Maze Dashパズルを紹介した。
提案したモンテカルロ木探索(MCTS)アルゴリズムに最適化を適用し,有望な結果を得た。
比較の結果,MCTSをベースとしたアプローチは,テストケースの小型化と中型化を両立させる手法であることがわかった。
論文 参考訳(メタデータ) (2020-05-28T17:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。