論文の概要: Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2206.01011v1
- Date: Thu, 2 Jun 2022 12:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:20:43.683502
- Title: Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov
Decision Processes
- Title(参考訳): モンテカルロ木探索による非マルコフ決定過程のポリシー勾配アルゴリズム
- Authors: Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang
- Abstract要約: 本稿では,政策(PG)とモンテカルロ木探索(MCTS)の勾配混合政策を提案する。
2時間スケール近似の結果から収束条件を導出し,これらの条件を満たすアルゴリズムを提案する。
提案手法の有効性は,非マルコフ決定過程に関する数値実験によって検証される。
- 参考スコア(独自算出の注目度): 1.8925617030516926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient (PG) is a reinforcement learning (RL) approach that optimizes
a parameterized policy model for an expected return using gradient ascent.
Given a well-parameterized policy model, such as a neural network model, with
appropriate initial parameters, the PG algorithms work well even when
environment does not have the Markov property. Otherwise, they can be trapped
on a plateau or suffer from peakiness effects. As another successful RL
approach, algorithms based on Monte-Carlo Tree Search (MCTS), which include
AlphaZero, have obtained groundbreaking results especially on the board game
playing domain. They are also suitable to be applied to non-Markov decision
processes. However, since the standard MCTS does not have the ability to learn
state representation, the size of the tree-search space can be too large to
search. In this work, we examine a mixture policy of PG and MCTS to complement
each other's difficulties and take advantage of them. We derive conditions for
asymptotic convergence with results of a two-timescale stochastic approximation
and propose an algorithm that satisfies these conditions. The effectivity of
the proposed methods is verified through numerical experiments on non-Markov
decision processes.
- Abstract(参考訳): ポリシー・グラデーション(PG)は、勾配上昇を用いた予測リターンに対するパラメータ化政策モデルを最適化する強化学習(RL)アプローチである。
ニューラルネットワークモデルのようなよくパラメータ化されたポリシーモデルと適切な初期パラメータが与えられた場合、PGアルゴリズムはマルコフ特性を持っていなくてもうまく機能する。
そうでなければ、高原に閉じ込められるか、ピーク効果に悩まされる。
別のrlアプローチとして、alphazeroを含むモンテカルロ木探索(mcts)に基づくアルゴリズムは、特にボードゲームプレイ領域において画期的な結果を得た。
これらはまた、非マルコフ決定プロセスに適用するのに適している。
しかし、標準MCTSは状態表現を学習する能力を持っていないため、木探索空間のサイズは検索するには大きすぎる可能性がある。
本研究では,PGとMCTSの混合政策について検討し,両者の困難を補完し,その利点を生かした。
2時間スケール確率近似の結果から漸近収束条件を導出し,これらの条件を満たすアルゴリズムを提案する。
提案手法の有効性を非マルコフ決定過程の数値実験により検証した。
関連論文リスト
- Convergence for Natural Policy Gradient on Infinite-State Average-Reward
Markov Decision Processes [15.89915930948668]
無限状態平均逆 MDP に対する NPG アルゴリズムの第一収束率を証明した。
大規模な待ち行列型MDPの文脈では、MaxWeightポリシーは私たちの初期政治要件を満たすのに十分であることを示す。
論文 参考訳(メタデータ) (2024-02-07T21:43:57Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Formally-Sharp DAgger for MCTS: Lower-Latency Monte Carlo Tree Search
using Data Aggregation with Formal Methods [0.0]
本研究では,モンテカルロ木探索 (MCTS) とディープラーニングを効率よく組み合わせて,高品質な回帰地平線政策を創出する方法について検討する。
モデルチェック手法を用いてMCTSアルゴリズムを誘導し,高品質な意思決定のオフラインサンプルを生成する。
これらのサンプルは、それらを生成するために使用されるポリシーを模倣するニューラルネットワークのトレーニングに使用することができる。
論文 参考訳(メタデータ) (2023-08-15T12:33:58Z) - Monte Carlo Policy Gradient Method for Binary Optimization [3.742634130733923]
パラメータ化されたポリシー分布に従って二項解をサンプリングする新しい確率モデルを開発する。
離散空間におけるコヒーレント探索には、並列マルコフ・チェイン・モンテカルロ法(MCMC)を用いる。
政策勾配法を期待する定常点への収束性を確立する。
論文 参考訳(メタデータ) (2023-07-03T07:01:42Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。