論文の概要: Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2304.00232v1
- Date: Sat, 1 Apr 2023 05:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 19:02:08.377984
- Title: Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes
- Title(参考訳): 非定常マルコフ決定過程に対するベイズオンライン変更点検出の再開
- Authors: Reda Alami, Mohammed Mahfoud, Eric Moulines
- Abstract要約: 我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
- 参考スコア(独自算出の注目度): 12.229154524476405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning in a non-stationary reinforcement
learning (RL) environment, where the setting can be fully described by a
piecewise stationary discrete-time Markov decision process (MDP). We introduce
a variant of the Restarted Bayesian Online Change-Point Detection algorithm
(R-BOCPD) that operates on input streams originating from the more general
multinomial distribution and provides near-optimal theoretical guarantees in
terms of false-alarm rate and detection delay. Based on this, we propose an
improved version of the UCRL2 algorithm for MDPs with state transition kernel
sampled from a multinomial distribution, which we call R-BOCPD-UCRL2. We
perform a finite-time performance analysis and show that R-BOCPD-UCRL2 enjoys a
favorable regret bound of $O\left(D O \sqrt{A T K_T \log\left (\frac{T}{\delta}
\right) + \frac{K_T \log \frac{K_T}{\delta}}{\min\limits_\ell \:
\mathbf{KL}\left(
{\mathbf{\theta}^{(\ell+1)}}\mid\mid{\mathbf{\theta}^{(\ell)}}\right)}}\right)$,
where $D$ is the largest MDP diameter from the set of MDPs defining the
piecewise stationary MDP setting, $O$ is the finite number of states (constant
over all changes), $A$ is the finite number of actions (constant over all
changes), $K_T$ is the number of change points up to horizon $T$, and
$\mathbf{\theta}^{(\ell)}$ is the transition kernel during the interval
$[c_\ell, c_{\ell+1})$, which we assume to be multinomially distributed over
the set of states $\mathbb{O}$. Interestingly, the performance bound does not
directly scale with the variation in MDP state transition distributions and
rewards, ie. can also model abrupt changes. In practice, R-BOCPD-UCRL2
outperforms the state-of-the-art in a variety of scenarios in synthetic
environments. We provide a detailed experimental setup along with a code
repository (upon publication) that can be used to easily reproduce our
experiments.
- Abstract(参考訳): 本稿では,非定常強化学習(RL)環境における学習の問題点について考察する。
本稿では,より一般的なマルチミリ波分布から得られる入力ストリームを演算し,疑似アラームレートと検出遅延の観点からほぼ最適理論的保証を提供するRestarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)を提案する。
そこで本研究では,マルチノード分布からサンプル化した状態遷移カーネルをR-BOCPD-UCRL2と呼ぶMPP用UCRL2アルゴリズムの改良版を提案する。
We perform a finite-time performance analysis and show that R-BOCPD-UCRL2 enjoys a favorable regret bound of $O\left(D O \sqrt{A T K_T \log\left (\frac{T}{\delta} \right) + \frac{K_T \log \frac{K_T}{\delta}}{\min\limits_\ell \: \mathbf{KL}\left( {\mathbf{\theta}^{(\ell+1)}}\mid\mid{\mathbf{\theta}^{(\ell)}}\right)}}\right)$, where $D$ is the largest MDP diameter from the set of MDPs defining the piecewise stationary MDP setting, $O$ is the finite number of states (constant over all changes), $A$ is the finite number of actions (constant over all changes), $K_T$ is the number of change points up to horizon $T$, and $\mathbf{\theta}^{(\ell)}$ is the transition kernel during the interval $[c_\ell, c_{\ell+1})$, which we assume to be multinomially distributed over the set of states $\mathbb{O}$.
興味深いことに、パフォーマンスバウンダリは、MDP状態遷移の分布と報酬のばらつきによって直接スケールしない。
突然の変化もモデル化できます
実際には、r-bocpd-ucrl2は合成環境における様々なシナリオにおいて最先端技術を上回る。
実験の再現に使用できるコードリポジトリ(upon publication)とともに、詳細な実験セットアップを提供しています。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Span-Based Optimal Sample Complexity for Average Reward MDPs [6.996002801232415]
平均回帰マルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを生成モデルで学習する際のサンプル複雑性について検討した。
我々は、$widetildeOleft(SAfracH (1-gamma)2varepsilon2 right)$, ここで、$H$は最適ポリシーのバイアス関数のスパンであり、$SA$は状態作用空間の濃度である。
論文 参考訳(メタデータ) (2023-11-22T15:34:44Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。