論文の概要: An Extensible and Modular Design and Implementation of Monte Carlo Tree
Search for the JVM
- arxiv url: http://arxiv.org/abs/2108.10061v1
- Date: Fri, 30 Jul 2021 08:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 16:13:47.840666
- Title: An Extensible and Modular Design and Implementation of Monte Carlo Tree
Search for the JVM
- Title(参考訳): JVMのためのモンテカルロ木探索の拡張性とモジュール設計と実装
- Authors: Larkin Liu, Jun Tao Luo
- Abstract要約: 我々は,オブジェクト指向プログラミングの主要な設計原則に従う標準ライブラリとしてMCTS実装であるmctreesearch4jを紹介する。
我々は、MCTSライブラリが適切に定義されたマルコフ決定プロセスやターンベースのゲームに柔軟に適応できるように、キークラス抽象化を定義する。
我々のライブラリは、クラス継承とジェネリックタイピングを利用して、カスタムアルゴリズム定義を標準化し、モジュール的で逆向きに設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flexible implementations of Monte Carlo Tree Search (MCTS), combined with
domain specific knowledge and hybridization with other search algorithms, can
be powerful for finding the solutions to problems in complex planning. We
introduce mctreesearch4j, an MCTS implementation written as a standard JVM
library following key design principles of object oriented programming. We
define key class abstractions allowing the MCTS library to flexibly adapt to
any well defined Markov Decision Process or turn-based adversarial game.
Furthermore, our library is designed to be modular and extensible, utilizing
class inheritance and generic typing to standardize custom algorithm
definitions. We demonstrate that the design of the MCTS implementation provides
ease of adaptation for unique heuristics and customization across varying
Markov Decision Process (MDP) domains. In addition, the implementation is
reasonably performant and accurate for standard MDP's. In addition, via the
implementation of mctreesearch4j, the nuances of different types of MCTS
algorithms are discussed.
- Abstract(参考訳): モンテカルロ木探索(mcts)の柔軟な実装は、ドメイン固有の知識と他の探索アルゴリズムとのハイブリダイゼーションを組み合わせることで、複雑な計画における問題の解決策を見つけるのに有効である。
mctreesearch4jは、オブジェクト指向プログラミングの主要な設計原則に従い、標準JVMライブラリとして書かれたMCTS実装である。
我々は,mctsライブラリがマルコフ決定プロセスやターンベースの敵ゲームに柔軟に対応できるキークラスの抽象化を定義する。
このライブラリはクラス継承とジェネリック型付けを利用して独自のアルゴリズム定義を標準化することで,モジュール性と拡張性を備えるように設計されている。
我々は,MCTS実装の設計により,様々なマルコフ決定プロセス(MDP)領域にまたがるユニークなヒューリスティックやカスタマイズが容易であることを示した。
加えて、実装は標準のMDPに対して合理的に性能が高く正確である。
さらに、mctreesearch4jの実装を通じて、MCTSアルゴリズムの異なる種類のニュアンスについて論じる。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios [32.83545787965431]
学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
論文 参考訳(メタデータ) (2023-10-12T14:18:09Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning
Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。
MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。
ライブラリのソースコードはGitHubで公開されている。
論文 参考訳(メタデータ) (2022-10-11T03:11:12Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Variational Combinatorial Sequential Monte Carlo Methods for Bayesian
Phylogenetic Inference [4.339931151475307]
Vari Combinatorial Monte Carlo (VCSMC) は複雑な構造について学習するための変分探索を確立する強力なフレームワークである。
本稿では,VCSMC と CSMC が,従来のタスクよりも高い確率空間を探索できることを示す。
論文 参考訳(メタデータ) (2021-05-31T19:44:24Z) - mlOSP: Towards a Unified Implementation of Regression Monte Carlo
Algorithms [0.0]
最適停止問題に対する機械学習のための計算テンプレートであるmlOSPを紹介する。
テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。
論文 参考訳(メタデータ) (2020-12-01T18:41:02Z) - Joint Contrastive Learning with Infinite Possibilities [114.45811348666898]
本稿では,新しい確率論的モデリングによるコントラスト学習における最近の発展の有用性について考察する。
コントラスト学習(Joint Contrastive Learning, JCL)という,コントラスト学習の特定の形態を導出する。
論文 参考訳(メタデータ) (2020-09-30T16:24:21Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。