論文の概要: Online Reinforcement Learning for Periodic MDP
- arxiv url: http://arxiv.org/abs/2207.12045v1
- Date: Mon, 25 Jul 2022 10:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:17:03.658145
- Title: Online Reinforcement Learning for Periodic MDP
- Title(参考訳): 周期的MDPのためのオンライン強化学習
- Authors: Ayush Aniket and Arpan Chattopadhyay
- Abstract要約: 状態空間を周期的に増大させることにより,定常的MDPとして問題を定式化する。
PUC2アルゴリズムの後悔は、周期とともに線形に変化し、水平線長のサブ線形であることを示す。
- 参考スコア(独自算出の注目度): 3.8073142980732992
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study learning in periodic Markov Decision Process(MDP), a special type of
non-stationary MDP where both the state transition probabilities and reward
functions vary periodically, under the average reward maximization setting. We
formulate the problem as a stationary MDP by augmenting the state space with
the period index, and propose a periodic upper confidence bound reinforcement
learning-2 (PUCRL2) algorithm. We show that the regret of PUCRL2 varies
linearly with the period and as sub-linear with the horizon length. Numerical
results demonstrate the efficacy of PUCRL2.
- Abstract(参考訳): 我々は, 平均報酬最大化設定の下で, 状態遷移確率と報酬関数の両方が周期的に変化する特別な非定常MDPである周期的マルコフ決定過程(MDP)の学習について検討した。
本稿では,周期指数で状態空間を補足し,定常mdpとして問題を定式化し,周期的upper confidence bound reinforcement learning-2 (pucrl2) アルゴリズムを提案する。
PUCRL2の後悔は周期とともに直線的に変化し,水平線長のサブ線形として現れることを示す。
PUCRL2の有効性を示した。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Online Reinforcement Learning in Periodic MDP [3.8073142980732992]
PUCRLBの後悔は、$N$と$mathcalO(sqrtTlog T)$の期間で直線的に変化し、水平長は$T$であることを示す。
本稿では,その期間が未知だが,候補期間の集合が知られている環境における不確実性を拡張するための他の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-16T20:16:45Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting [83.60876685008225]
PTS予測のための深層拡張学習フレームワークDEPTSを導入する。
DEPTSは、周期状態を隠れ変数として導入することで、分離された定式化から始まる。
我々の2つのカスタマイズされたモジュールは、局所的なモーメントまたはグローバルな周期性に予測を帰属させるなど、ある程度の解釈可能な能力を持っている。
論文 参考訳(メタデータ) (2022-03-15T06:51:58Z) - Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-28T07:18:29Z) - Continual Learning In Environments With Polynomial Mixing Times [13.533984338434106]
連続的強化学習における混合時間の影響について検討した。
平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2021-12-13T23:41:56Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Robust Domain Randomised Reinforcement Learning through Peer-to-Peer
Distillation [3.413891820605725]
強化学習では、ドメインランダム化は、デプロイ時にドメインシフトに堅牢な、より一般的なポリシーを学ぶための、ますます普及しているテクニックである。
本稿では,複数の作業者がそれぞれ異なる環境に割り当てられ,kullback-leibler 発散に基づく相互正規化を通じて知識を交換する rl のp2pdrl におけるピアツーピアオンライン蒸留戦略を提案する。
P2PDRLはベースラインよりも広いランダム化分布をまたいだ堅牢な学習を可能にし,テスト時の新しい環境へのより堅牢な一般化を可能にした。
論文 参考訳(メタデータ) (2020-12-09T03:16:04Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。