Fugu-MT 論文翻訳(概要): Convex Regularization in Monte-Carlo Tree Search

論文の概要: Convex Regularization in Monte-Carlo Tree Search

arxiv url: http://arxiv.org/abs/2007.00391v3
Date: Tue, 16 Feb 2021 15:14:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 21:49:51.185621
Title: Convex Regularization in Monte-Carlo Tree Search
Title（参考訳）: モンテカルロ木探索における凸正規化
Authors: Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen
Abstract要約: モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
参考スコア（独自算出の注目度）: 41.11958980731047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monte-Carlo planning and Reinforcement Learning (RL) are essential to sequential decision making. The recent AlphaGo and AlphaZero algorithms have shown how to successfully combine these two paradigms in order to solve large scale sequential decision problems. These methodologies exploit a variant of the well-known UCT algorithm to trade off exploitation of good actions and exploration of unvisited states, but their empirical success comes at the cost of poor sample-efficiency and high computation time. In this paper, we overcome these limitations by considering convex regularization in Monte-Carlo Tree Search (MCTS), which has been successfully used in RL to efficiently drive exploration. First, we introduce a unifying theory on the use of generic convex regularizers in MCTS, deriving the regret analysis and providing guarantees of exponential convergence rate. Second, we exploit our theoretical framework to introduce novel regularized backup operators for MCTS, based on the relative entropy of the policy update, and on the Tsallis entropy of the policy. Finally, we empirically evaluate the proposed operators in AlphaGo and AlphaZero on problems of increasing dimensionality and branching factor, from a toy problem to several Atari games, showing their superiority w.r.t. representative baselines.
Abstract（参考訳）: モンテカルロ計画と強化学習(RL)はシーケンシャルな意思決定に不可欠である。最近のAlphaGoとAlphaZeroのアルゴリズムは、大規模なシーケンシャルな決定問題を解くためにこれらの2つのパラダイムをうまく組み合わせる方法を示している。これらの手法は、よく知られたUCTアルゴリズムの変種を利用して、良い行動の搾取と目に見えない状態の探索をトレードオフするが、その実証的な成功は、サンプル効率の低下と高い計算時間によって生じる。本稿では,モンテカルロ木探索(MCTS)における凸正規化を考慮し,これらの制約を克服する。まず,mctsにおけるジェネリック凸正規化器の使用に関する統一理論を導入し,後悔分析を導出し,指数収束率の保証を提供する。第2に,政策更新の相対エントロピーと政策のtsallisエントロピーに基づいて,mtsの新たな正規化バックアップ演算子を導入するための理論的枠組みを活用した。最後に,alphago と alphazero の操作者について,おもちゃ問題から atari ゲームまで,次元と分岐係数の増大の問題について経験的に評価し,その優越性を示す。

関連論文リスト

StaQ it! Growing neural networks for Policy Mirror Descent [4.672862669694739]
強化学習(RL)では、理論と実践の両方において、正規化が一般的なツールとして現れている。我々は,最後の$M$Q関数のみをメモリに保持するPMDのようなアルゴリズムを提案し,解析する。有限で十分大きい$M$に対して、収束アルゴリズムを導出することができ、ポリシー更新にエラーは発生しない。
論文参考訳（メタデータ） (2025-06-16T18:00:01Z)
DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management [18.953750405635393]
Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
論文参考訳（メタデータ） (2025-05-19T10:44:49Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Learning Merton's Strategies in an Incomplete Market: Recursive Entropy Regularization and Biased Gaussian Exploration [11.774563966512709]
我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-12-19T02:14:13Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。 CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文参考訳（メタデータ） (2022-06-20T09:22:20Z)
Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。 PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文参考訳（メタデータ） (2022-06-02T12:21:40Z)
A Unified Perspective on Value Backup and Exploration in Monte-Carlo Tree Search [41.11958980731047]
本稿では,新たに導入されたバックアップ演算子とエントロピー正規化に基づく収束率と探索率を改善する2つの手法を提案する。この理論的な定式化は、我々が新たに導入したものも含めて、同じ数学的枠組みの下で異なるアプローチを統一することを示します。実際には、我々の統合された視点は、目の前の問題に応じて単一の$alpha$パラメータをチューニングすることで、探索と搾取のバランスをとる柔軟な方法を提供する。
論文参考訳（メタデータ） (2022-02-11T15:30:08Z)
Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2021-10-04T10:28:57Z)
Bayesian decision-making under misspecified priors with applications to meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。性能は不特定な事前条件で優雅に低下することを示す。
論文参考訳（メタデータ） (2021-07-03T23:17:26Z)
Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文参考訳（メタデータ） (2021-06-09T12:20:46Z)
Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文参考訳（メタデータ） (2020-07-24T13:01:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。