Fugu-MT 論文翻訳(概要): LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios

論文の概要: LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios

arxiv url: http://arxiv.org/abs/2310.08348v1
Date: Thu, 12 Oct 2023 14:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 11:09:52.839576
Title: LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios
Title（参考訳）: lightzero: 一般的な逐次決定シナリオにおけるモンテカルロ木探索の統一ベンチマーク
Authors: Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren, Shuai Hu, Hongsheng Li, Yu Liu
Abstract要約: 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
参考スコア（独自算出の注目度）: 32.83545787965431
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building agents based on tree-search planning capabilities with learned models has achieved remarkable success in classic decision-making problems, such as Go and Atari. However, it has been deemed challenging or even infeasible to extend Monte Carlo Tree Search (MCTS) based algorithms to diverse real-world applications, especially when these environments involve complex action spaces and significant simulation costs, or inherent stochasticity. In this work, we introduce LightZero, the first unified benchmark for deploying MCTS/MuZero in general sequential decision scenarios. Specificially, we summarize the most critical challenges in designing a general MCTS-style decision-making solver, then decompose the tightly-coupled algorithm and system design of tree-search RL methods into distinct sub-modules. By incorporating more appropriate exploration and optimization strategies, we can significantly enhance these sub-modules and construct powerful LightZero agents to tackle tasks across a wide range of domains, such as board games, Atari, MuJoCo, MiniGrid and GoBigger. Detailed benchmark results reveal the significant potential of such methods in building scalable and efficient decision intelligence. The code is available as part of OpenDILab at https://github.com/opendilab/LightZero.
Abstract（参考訳）: 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。しかし、モンテカルロ木探索 (mcts) に基づくアルゴリズムを様々な実世界応用に拡張することは、特に複雑な動作空間や大きなシミュレーションコスト、あるいは固有の確率性を伴う場合、困難あるいは不可能であると考えられている。本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。具体的には、一般MCTS型決定解法の設計における最も重要な課題を要約し、木探索RL法の密結合アルゴリズムとシステム設計を別個のサブモジュールに分解する。より適切な探索と最適化戦略を導入することで、これらのサブモジュールを大幅に強化し、ボードゲーム、atari、mujoco、minigrid、gobiggerなど、幅広いドメインのタスクに取り組む強力なlightzeroエージェントを構築することができます。詳細なベンチマークの結果は、スケーラブルで効率的な意思決定インテリジェンスを構築する上で、そのような方法が有意義であることを示している。コードはOpenDILabのhttps://github.com/opendilab/LightZero.comで公開されている。

関連論文リスト

Exploring Explainable Multi-player MCTS-minimax Hybrids in Board Game Using Process Mining [3.5042452314350716]
本稿では,モンテカルロ木探索(MCTS)の意思決定と行動に関する潜在的説明について検討する。 MCTSの弱点は、非常に選択的な木を構築し、結果として決定的な動きを見逃し、戦術的な罠に陥ることである。我々は,マルチプレイヤーMCTSのロールアウトフェーズに浅いミニマックス探索を統合し,プロセスマイニング技術を用いて3v3チェッカーにおけるエージェントの戦略を説明する。
論文参考訳（メタデータ） (2025-03-30T05:48:53Z)
Multi-Agent Environments for Vehicle Routing Problems [1.0179489519625304]
本稿では,従来の車両ルーティング問題をシミュレートするマルチエージェント環境からなるライブラリを提案する。 PyTorch上に構築されたこのライブラリは、新しいルーティング問題のカスタマイズと導入を容易にする、柔軟なモジュラーアーキテクチャ設計を提供する。
論文参考訳（メタデータ） (2024-11-21T18:46:23Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
UniZero: Generalized and Efficient Planning with Scalable Latent World Models [29.648382211926364]
UniZeroは、モジュールトランスフォーマーベースの世界モデルを使用して、共有潜在空間を効果的に学習する新しいアプローチである。長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。 Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-06-15T15:24:15Z)
An Evolutionary Framework for Connect-4 as Test-Bed for Comparison of Advanced Minimax, Q-Learning and MCTS [0.0]
本稿では,RL,Minimax,Monte Carlo木探索(MCTS)という3種類のアルゴリズムの進化的枠組みを考案した。 MCTSが勝利率で最高の結果を得るのに対し,MinimaxとQ-Learningはそれぞれ第2位と第3位にランクされていることを示す。
論文参考訳（メタデータ） (2024-05-26T15:11:45Z)
Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-20T04:36:02Z)
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。 CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文参考訳（メタデータ） (2023-10-13T10:17:48Z)
ArchGym: An Open-Source Gymnasium for Machine Learning Assisted Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文参考訳（メタデータ） (2023-06-15T06:41:23Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。 FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-04T05:21:36Z)
Monte Carlo Tree Search: A Review of Recent Modifications and Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文参考訳（メタデータ） (2021-03-08T17:44:15Z)
Unlucky Explorer: A Complete non-Overlapping Map Exploration [0.949996206597248]
エージェントがすべてのセルを訪問するハミルトニアンパスを見つけなければならない探索問題として,Maze Dashパズルを紹介した。提案したモンテカルロ木探索(MCTS)アルゴリズムに最適化を適用し,有望な結果を得た。比較の結果,MCTSをベースとしたアプローチは,テストケースの小型化と中型化を両立させる手法であることがわかった。
論文参考訳（メタデータ） (2020-05-28T17:19:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。