Fugu-MT 論文翻訳(概要): A Unified Perspective on Value Backup and Exploration in Monte-Carlo Tree Search

論文の概要: A Unified Perspective on Value Backup and Exploration in Monte-Carlo Tree Search

arxiv url: http://arxiv.org/abs/2202.07071v1
Date: Fri, 11 Feb 2022 15:30:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-16 13:57:50.770838
Title: A Unified Perspective on Value Backup and Exploration in Monte-Carlo Tree Search
Title（参考訳）: モンテカルロ樹探索における価値バックアップと探索の統一的視点
Authors: Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen
Abstract要約: 本稿では,新たに導入されたバックアップ演算子とエントロピー正規化に基づく収束率と探索率を改善する2つの手法を提案する。この理論的な定式化は、我々が新たに導入したものも含めて、同じ数学的枠組みの下で異なるアプローチを統一することを示します。実際には、我々の統合された視点は、目の前の問題に応じて単一の$alpha$パラメータをチューニングすることで、探索と搾取のバランスをとる柔軟な方法を提供する。
参考スコア（独自算出の注目度）: 41.11958980731047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monte-Carlo Tree Search (MCTS) is a class of methods for solving complex decision-making problems through the synergy of Monte-Carlo planning and Reinforcement Learning (RL). The highly combinatorial nature of the problems commonly addressed by MCTS requires the use of efficient exploration strategies for navigating the planning tree and quickly convergent value backup methods. These crucial problems are particularly evident in recent advances that combine MCTS with deep neural networks for function approximation. In this work, we propose two methods for improving the convergence rate and exploration based on a newly introduced backup operator and entropy regularization. We provide strong theoretical guarantees to bound convergence rate, approximation error, and regret of our methods. Moreover, we introduce a mathematical framework based on the use of the $\alpha$-divergence for backup and exploration in MCTS. We show that this theoretical formulation unifies different approaches, including our newly introduced ones, under the same mathematical framework, allowing to obtain different methods by simply changing the value of $\alpha$. In practice, our unified perspective offers a flexible way to balance between exploration and exploitation by tuning the single $\alpha$ parameter according to the problem at hand. We validate our methods through a rigorous empirical study from basic toy problems to the complex Atari games, and including both MDP and POMDP problems.
Abstract（参考訳）: モンテカルロ木探索(MCTS)は、モンテカルロ計画と強化学習(RL)の相乗効果によって複雑な意思決定問題を解決する手法のクラスである。 MCTSが対処する問題の高度に組み合わせた性質には、計画木をナビゲートするための効率的な探索戦略と、迅速に収束した値バックアップ手法が必要とされる。これらの重要な問題は、MCTSと関数近似のためのディープニューラルネットワークを組み合わせた最近の進歩で特に顕著である。本研究では,新たに導入されたバックアップ演算子とエントロピー正規化に基づく収束率と探索の2つの手法を提案する。我々は、収束率、近似誤差、および手法の後悔に対する強力な理論的保証を提供する。さらに,MCTSのバックアップと探索に$\alpha$-divergenceを使用する数学的枠組みを導入する。この理論的な定式化は、新しく導入されたものを含む異なるアプローチを同じ数学的枠組みで統一し、単に$\alpha$の値を変更することによって異なる方法を得ることができることを示す。実際には、我々の統一的な視点は、目の前の問題に応じて$\alpha$パラメータをチューニングすることで、探索と搾取のバランスをとる柔軟な方法を提供します。我々は,基本的な玩具問題から複雑なアタリゲームまで,MDPとPOMDPの両問題を含む厳密な実証研究を通じて本手法を検証する。

関連論文リスト

MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [27.378904180238557]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文参考訳（メタデータ） (2025-03-26T17:46:08Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文参考訳（メタデータ） (2024-04-16T17:01:38Z)
An Integrated Framework Integrating Monte Carlo Tree Search and Supervised Learning for Train Timetabling Problem [0.0]
単線列車の時変問題(TTP)は重要かつ複雑な問題である。本稿では,モンテカルロ木探索(MCTS)計算フレームワークを提案する。このフレームワークは,個別の行動空間におけるTTPを解くための手法,教師なし学習法,および教師なし学習法を組み合わせたものである。
論文参考訳（メタデータ） (2023-11-02T03:39:14Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文参考訳（メタデータ） (2022-12-21T20:53:44Z)
Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning [2.2725929250900947]
静的な$D$-scalingでステートフィードバックの$mu$合成を解くために、よく知られた$DK$-iterationのモデルフリーバージョンを開発する。提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして、古典的な中央経路アルゴリズムを模倣する。本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。
論文参考訳（メタデータ） (2021-11-30T16:29:49Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文参考訳（メタデータ） (2020-07-01T11:29:08Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。