論文の概要: Online Reinforcement Learning in Periodic MDP
- arxiv url: http://arxiv.org/abs/2303.09629v1
- Date: Thu, 16 Mar 2023 20:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:26:53.784708
- Title: Online Reinforcement Learning in Periodic MDP
- Title(参考訳): MDPにおけるオンライン強化学習
- Authors: Ayush Aniket, Arpan Chattopadhyay
- Abstract要約: PUCRLBの後悔は、$N$と$mathcalO(sqrtTlog T)$の期間で直線的に変化し、水平長は$T$であることを示す。
本稿では,その期間が未知だが,候補期間の集合が知られている環境における不確実性を拡張するための他の2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.8073142980732992
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study learning in periodic Markov Decision Process (MDP), a special type
of non-stationary MDP where both the state transition probabilities and reward
functions vary periodically, under the average reward maximization setting. We
formulate the problem as a stationary MDP by augmenting the state space with
the period index, and propose a periodic upper confidence bound reinforcement
learning-2 (PUCRL2) algorithm. We show that the regret of PUCRL2 varies
linearly with the period $N$ and as $\mathcal{O}(\sqrt{Tlog T})$ with the
horizon length $T$. Utilizing the information about the sparsity of transition
matrix of augmented MDP, we propose another algorithm PUCRLB which enhances
upon PUCRL2, both in terms of regret ($O(\sqrt{N})$ dependency on period) and
empirical performance. Finally, we propose two other algorithms U-PUCRL2 and
U-PUCRLB for extended uncertainty in the environment in which the period is
unknown but a set of candidate periods are known. Numerical results demonstrate
the efficacy of all the algorithms.
- Abstract(参考訳): 我々は, 平均報酬最大化設定の下で, 状態遷移確率と報酬関数の両方が周期的に変化する特別な非定常MDPである周期的マルコフ決定過程(MDP)の学習について検討した。
本稿では,周期指数で状態空間を補足し,定常mdpとして問題を定式化し,周期的upper confidence bound reinforcement learning-2 (pucrl2) アルゴリズムを提案する。
PUCRL2 の後悔は、$N$ と $\mathcal{O}(\sqrt{Tlog T})$ と、水平長 $T$ で線形に変化することを示す。
本研究では,拡張mdpの遷移行列のスパース性に関する情報を利用して,後悔(o(\sqrt{n})$周期依存性)と経験的性能の両方において,pucrl2を強調するアルゴリズムpucrlbを提案する。
最後に,この期間が未知であるが候補期間の組が知られている環境における拡張不確実性に対して,他の2つのアルゴリズム u-pucrl2 と u-pucrlb を提案する。
数値的な結果は全てのアルゴリズムの有効性を示している。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Solving Long-run Average Reward Robust MDPs via Stochastic Games [6.183091173390457]
ロバストマルコフ決定過程(RMDP)は、各遷移に単一の確率値ではなく不確実性集合を割り当てる。
我々は、有限状態およびアクション空間を持つ長期平均報酬ターンベースのゲームに還元可能であることを示す。
本稿では、長期平均ポリトピックRMDPを解くための新しいポリシー反復アルゴリズムであるRobust Polytopic Policy Iteration(RPPI)を提案する。
論文 参考訳(メタデータ) (2023-12-21T15:00:06Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Online Reinforcement Learning for Periodic MDP [3.8073142980732992]
状態空間を周期的に増大させることにより,定常的MDPとして問題を定式化する。
PUC2アルゴリズムの後悔は、周期とともに線形に変化し、水平線長のサブ線形であることを示す。
論文 参考訳(メタデータ) (2022-07-25T10:37:09Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-28T07:18:29Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。