論文の概要: Convex Regularization in Monte-Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2007.00391v3
- Date: Tue, 16 Feb 2021 15:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:49:51.185621
- Title: Convex Regularization in Monte-Carlo Tree Search
- Title(参考訳): モンテカルロ木探索における凸正規化
- Authors: Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen
- Abstract要約: モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。
我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。
我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
- 参考スコア(独自算出の注目度): 41.11958980731047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte-Carlo planning and Reinforcement Learning (RL) are essential to
sequential decision making. The recent AlphaGo and AlphaZero algorithms have
shown how to successfully combine these two paradigms in order to solve large
scale sequential decision problems. These methodologies exploit a variant of
the well-known UCT algorithm to trade off exploitation of good actions and
exploration of unvisited states, but their empirical success comes at the cost
of poor sample-efficiency and high computation time. In this paper, we overcome
these limitations by considering convex regularization in Monte-Carlo Tree
Search (MCTS), which has been successfully used in RL to efficiently drive
exploration. First, we introduce a unifying theory on the use of generic convex
regularizers in MCTS, deriving the regret analysis and providing guarantees of
exponential convergence rate. Second, we exploit our theoretical framework to
introduce novel regularized backup operators for MCTS, based on the relative
entropy of the policy update, and on the Tsallis entropy of the policy.
Finally, we empirically evaluate the proposed operators in AlphaGo and
AlphaZero on problems of increasing dimensionality and branching factor, from a
toy problem to several Atari games, showing their superiority w.r.t.
representative baselines.
- Abstract(参考訳): モンテカルロ計画と強化学習(RL)はシーケンシャルな意思決定に不可欠である。
最近のAlphaGoとAlphaZeroのアルゴリズムは、大規模なシーケンシャルな決定問題を解くためにこれらの2つのパラダイムをうまく組み合わせる方法を示している。
これらの手法は、よく知られたUCTアルゴリズムの変種を利用して、良い行動の搾取と目に見えない状態の探索をトレードオフするが、その実証的な成功は、サンプル効率の低下と高い計算時間によって生じる。
本稿では,モンテカルロ木探索(MCTS)における凸正規化を考慮し,これらの制約を克服する。
まず,mctsにおけるジェネリック凸正規化器の使用に関する統一理論を導入し,後悔分析を導出し,指数収束率の保証を提供する。
第2に,政策更新の相対エントロピーと政策のtsallisエントロピーに基づいて,mtsの新たな正規化バックアップ演算子を導入するための理論的枠組みを活用した。
最後に,alphago と alphazero の操作者について,おもちゃ問題から atari ゲームまで,次元と分岐係数の増大の問題について経験的に評価し,その優越性を示す。
関連論文リスト
- Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration [11.774563966512709]
我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。
本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-12-19T02:14:13Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning
via Langevin Monte Carlo [98.11820566044216]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - A Unified Perspective on Value Backup and Exploration in Monte-Carlo
Tree Search [41.11958980731047]
本稿では,新たに導入されたバックアップ演算子とエントロピー正規化に基づく収束率と探索率を改善する2つの手法を提案する。
この理論的な定式化は、我々が新たに導入したものも含めて、同じ数学的枠組みの下で異なるアプローチを統一することを示します。
実際には、我々の統合された視点は、目の前の問題に応じて単一の$alpha$パラメータをチューニングすることで、探索と搾取のバランスをとる柔軟な方法を提供する。
論文 参考訳(メタデータ) (2022-02-11T15:30:08Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with
Non-Asymptotic Analysis [24.373900721120286]
連続的な状態-作用空間を持つ環境でのモンテカルロ計画を考える。
我々は,モンテカルロ計画に連続的な武装バンディット戦略を付加するアルゴリズムであるPoly-HOOTを紹介する。
非定常バンディット問題において,HOOアルゴリズムが拡張されたことを初めて後悔する。
論文 参考訳(メタデータ) (2020-06-08T15:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。