論文の概要: Convex Regularization in Monte-Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2007.00391v3
- Date: Tue, 16 Feb 2021 15:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:49:51.185621
- Title: Convex Regularization in Monte-Carlo Tree Search
- Title(参考訳): モンテカルロ木探索における凸正規化
- Authors: Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen
- Abstract要約: モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。
我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。
我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
- 参考スコア(独自算出の注目度): 41.11958980731047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte-Carlo planning and Reinforcement Learning (RL) are essential to
sequential decision making. The recent AlphaGo and AlphaZero algorithms have
shown how to successfully combine these two paradigms in order to solve large
scale sequential decision problems. These methodologies exploit a variant of
the well-known UCT algorithm to trade off exploitation of good actions and
exploration of unvisited states, but their empirical success comes at the cost
of poor sample-efficiency and high computation time. In this paper, we overcome
these limitations by considering convex regularization in Monte-Carlo Tree
Search (MCTS), which has been successfully used in RL to efficiently drive
exploration. First, we introduce a unifying theory on the use of generic convex
regularizers in MCTS, deriving the regret analysis and providing guarantees of
exponential convergence rate. Second, we exploit our theoretical framework to
introduce novel regularized backup operators for MCTS, based on the relative
entropy of the policy update, and on the Tsallis entropy of the policy.
Finally, we empirically evaluate the proposed operators in AlphaGo and
AlphaZero on problems of increasing dimensionality and branching factor, from a
toy problem to several Atari games, showing their superiority w.r.t.
representative baselines.
- Abstract(参考訳): モンテカルロ計画と強化学習(RL)はシーケンシャルな意思決定に不可欠である。
最近のAlphaGoとAlphaZeroのアルゴリズムは、大規模なシーケンシャルな決定問題を解くためにこれらの2つのパラダイムをうまく組み合わせる方法を示している。
これらの手法は、よく知られたUCTアルゴリズムの変種を利用して、良い行動の搾取と目に見えない状態の探索をトレードオフするが、その実証的な成功は、サンプル効率の低下と高い計算時間によって生じる。
本稿では,モンテカルロ木探索(MCTS)における凸正規化を考慮し,これらの制約を克服する。
まず,mctsにおけるジェネリック凸正規化器の使用に関する統一理論を導入し,後悔分析を導出し,指数収束率の保証を提供する。
第2に,政策更新の相対エントロピーと政策のtsallisエントロピーに基づいて,mtsの新たな正規化バックアップ演算子を導入するための理論的枠組みを活用した。
最後に,alphago と alphazero の操作者について,おもちゃ問題から atari ゲームまで,次元と分岐係数の増大の問題について経験的に評価し,その優越性を示す。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration [11.774563966512709]
我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。
本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-12-19T02:14:13Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。
PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。
本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-02T12:21:40Z) - A Unified Perspective on Value Backup and Exploration in Monte-Carlo
Tree Search [41.11958980731047]
本稿では,新たに導入されたバックアップ演算子とエントロピー正規化に基づく収束率と探索率を改善する2つの手法を提案する。
この理論的な定式化は、我々が新たに導入したものも含めて、同じ数学的枠組みの下で異なるアプローチを統一することを示します。
実際には、我々の統合された視点は、目の前の問題に応じて単一の$alpha$パラメータをチューニングすることで、探索と搾取のバランスをとる柔軟な方法を提供する。
論文 参考訳(メタデータ) (2022-02-11T15:30:08Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。