論文の概要: POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with
Non-Asymptotic Analysis
- arxiv url: http://arxiv.org/abs/2006.04672v2
- Date: Wed, 30 Dec 2020 05:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:13:30.002092
- Title: POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with
Non-Asymptotic Analysis
- Title(参考訳): 非漸近解析による連続宇宙MDPにおけるモンテカルロ計画
- Authors: Weichao Mao, Kaiqing Zhang, Qiaomin Xie, Tamer Ba\c{s}ar
- Abstract要約: 連続的な状態-作用空間を持つ環境でのモンテカルロ計画を考える。
我々は,モンテカルロ計画に連続的な武装バンディット戦略を付加するアルゴリズムであるPoly-HOOTを紹介する。
非定常バンディット問題において,HOOアルゴリズムが拡張されたことを初めて後悔する。
- 参考スコア(独自算出の注目度): 24.373900721120286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte-Carlo planning, as exemplified by Monte-Carlo Tree Search (MCTS), has
demonstrated remarkable performance in applications with finite spaces. In this
paper, we consider Monte-Carlo planning in an environment with continuous
state-action spaces, a much less understood problem with important applications
in control and robotics. We introduce POLY-HOOT, an algorithm that augments
MCTS with a continuous armed bandit strategy named Hierarchical Optimistic
Optimization (HOO) (Bubeck et al., 2011). Specifically, we enhance HOO by using
an appropriate polynomial, rather than logarithmic, bonus term in the upper
confidence bounds. Such a polynomial bonus is motivated by its empirical
successes in AlphaGo Zero (Silver et al., 2017b), as well as its significant
role in achieving theoretical guarantees of finite space MCTS (Shah et al.,
2019). We investigate, for the first time, the regret of the enhanced HOO
algorithm in non-stationary bandit problems. Using this result as a building
block, we establish non-asymptotic convergence guarantees for POLY-HOOT: the
value estimate converges to an arbitrarily small neighborhood of the optimal
value function at a polynomial rate. We further provide experimental results
that corroborate our theoretical findings.
- Abstract(参考訳): モンテカルロ・ツリー・サーチ(MCTS)で実証されたモンテカルロ計画は、有限空間の応用において顕著な性能を示した。
本稿では,モンテカルロ計画について,制御・ロボット工学における重要な応用に対する理解の低い,連続的な状態対応空間を持つ環境での考察を行う。
我々は,階層的楽観的最適化(hoo)(bubeck et al., 2011)と呼ばれる連続武装バンディット戦略でmctsを増強するアルゴリズムであるpoly-hootを紹介する。
具体的には,高信頼境界におけるボーナス項の対数ではなく,適切な多項式を用いることでhooを強化した。
このような多項式ボーナスは、AlphaGo Zero(Silver et al., 2017b)における経験的成功と、有限空間MCTS(Shah et al., 2019)の理論的保証を達成する上で重要な役割によって動機付けられている。
非定常バンディット問題において,HOOアルゴリズムが拡張されたことを初めて考察した。
この結果をビルディングブロックとして用いることで、POLY-HOOTの非漸近収束保証を確立する:値推定は多項式速度で最適値関数の任意の小さな近傍に収束する。
理論的な知見を裏付ける実験結果も提供します。
関連論文リスト
- Power Mean Estimation in Stochastic Monte-Carlo Tree_Search [25.058008522872747]
Monte-Carlo Tree Search (MCTS)は、Monte-Carloサンプリングとフォワードツリー検索を組み合わせたオンラインプランニングのための広く使われている戦略である。
UCTの理論的基礎は対数的ボーナス項の誤りにより不完全である。
本稿では,MDPに適したパワー平均推定器を用いたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:56:37Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。
PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。
本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-02T12:21:40Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Monte Carlo Information-Oriented Planning [6.0158981171030685]
rho-POMDPとして表現された情報収集問題を解決する方法について議論する。
我々はPOMCPアルゴリズムを用いてrho-POMDPのモンテカルロツリー探索を提案する。
論文 参考訳(メタデータ) (2021-03-21T09:09:27Z) - Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。
我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。
我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文 参考訳(メタデータ) (2020-07-01T11:29:08Z) - Free Energy Wells and Overlap Gap Property in Sparse PCA [81.64027805404483]
我々は「ハード」体制におけるスパースPCA問題(主成分分析)の変種について検討する。
問題に自然に関連付けられた様々なギブズ測度に対する自由エネルギー井戸の深さの有界性を示す。
我々は、オーバーラップギャップ特性(OGP)がハードレジームの重要な部分を占めていることを証明した。
論文 参考訳(メタデータ) (2020-06-18T17:18:02Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。