Fugu-MT 論文翻訳(概要): Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes

論文の概要: Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes

arxiv url: http://arxiv.org/abs/2206.01011v1
Date: Thu, 2 Jun 2022 12:21:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 13:20:43.683502
Title: Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
Title（参考訳）: モンテカルロ木探索による非マルコフ決定過程のポリシー勾配アルゴリズム
Authors: Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang
Abstract要約: 本稿では,政策(PG)とモンテカルロ木探索(MCTS)の勾配混合政策を提案する。 2時間スケール近似の結果から収束条件を導出し,これらの条件を満たすアルゴリズムを提案する。提案手法の有効性は,非マルコフ決定過程に関する数値実験によって検証される。
参考スコア（独自算出の注目度）: 1.8925617030516926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy gradient (PG) is a reinforcement learning (RL) approach that optimizes a parameterized policy model for an expected return using gradient ascent. Given a well-parameterized policy model, such as a neural network model, with appropriate initial parameters, the PG algorithms work well even when environment does not have the Markov property. Otherwise, they can be trapped on a plateau or suffer from peakiness effects. As another successful RL approach, algorithms based on Monte-Carlo Tree Search (MCTS), which include AlphaZero, have obtained groundbreaking results especially on the board game playing domain. They are also suitable to be applied to non-Markov decision processes. However, since the standard MCTS does not have the ability to learn state representation, the size of the tree-search space can be too large to search. In this work, we examine a mixture policy of PG and MCTS to complement each other's difficulties and take advantage of them. We derive conditions for asymptotic convergence with results of a two-timescale stochastic approximation and propose an algorithm that satisfies these conditions. The effectivity of the proposed methods is verified through numerical experiments on non-Markov decision processes.
Abstract（参考訳）: ポリシー・グラデーション(PG)は、勾配上昇を用いた予測リターンに対するパラメータ化政策モデルを最適化する強化学習(RL)アプローチである。ニューラルネットワークモデルのようなよくパラメータ化されたポリシーモデルと適切な初期パラメータが与えられた場合、PGアルゴリズムはマルコフ特性を持っていなくてもうまく機能する。そうでなければ、高原に閉じ込められるか、ピーク効果に悩まされる。別のrlアプローチとして、alphazeroを含むモンテカルロ木探索(mcts)に基づくアルゴリズムは、特にボードゲームプレイ領域において画期的な結果を得た。これらはまた、非マルコフ決定プロセスに適用するのに適している。しかし、標準MCTSは状態表現を学習する能力を持っていないため、木探索空間のサイズは検索するには大きすぎる可能性がある。本研究では,PGとMCTSの混合政策について検討し,両者の困難を補完し,その利点を生かした。 2時間スケール確率近似の結果から漸近収束条件を導出し,これらの条件を満たすアルゴリズムを提案する。提案手法の有効性を非マルコフ決定過程の数値実験により検証した。

関連論文リスト

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。 RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文参考訳（メタデータ） (2025-05-23T06:01:21Z)
On-line Policy Improvement using Monte-Carlo Search [5.787890316746393]
適応制御器のリアルタイムポリシー改善のためのモンテカルロシミュレーションアルゴリズムを提案する。我々のアルゴリズムは並列化が容易であり、IBM SP1とSP2の並列RISCスーパーコンピュータ上で実装されている。
論文参考訳（メタデータ） (2025-01-09T18:05:05Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文参考訳（メタデータ） (2024-09-25T05:04:53Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Monte Carlo Policy Gradient Method for Binary Optimization [3.742634130733923]
パラメータ化されたポリシー分布に従って二項解をサンプリングする新しい確率モデルを開発する。離散空間におけるコヒーレント探索には、並列マルコフ・チェイン・モンテカルロ法(MCMC)を用いる。政策勾配法を期待する定常点への収束性を確立する。
論文参考訳（メタデータ） (2023-07-03T07:01:42Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文参考訳（メタデータ） (2023-03-16T09:37:10Z)
Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-03T01:54:55Z)
Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。 1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。 2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文参考訳（メタデータ） (2021-04-28T14:23:38Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文参考訳（メタデータ） (2020-07-01T11:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。