論文の概要: Reinforcement Learning for Infinite-Horizon Average-Reward MDPs with Multinomial Logistic Function Approximation
- arxiv url: http://arxiv.org/abs/2406.13633v1
- Date: Wed, 19 Jun 2024 15:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 19:14:23.503115
- Title: Reinforcement Learning for Infinite-Horizon Average-Reward MDPs with Multinomial Logistic Function Approximation
- Title(参考訳): 多項ロジスティック関数近似を用いた無限水平平均逆MDPの強化学習
- Authors: Jaehyun Park, Dabeen Lee,
- Abstract要約: 無限水平平均報酬設定のための2つのアルゴリズムを開発する。
ここでは、$tildemathcalO(d2/5 Mathrmsp(v*)T4/5)$に対して、$mathrmsp(v*)$は関連する最適バイアス関数のスパンである。
- 参考スコア(独自算出の注目度): 3.675529589403533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study model-based reinforcement learning with non-linear function approximation where the transition function of the underlying Markov decision process (MDP) is given by a multinomial logistic (MNL) model. In this paper, we develop two algorithms for the infinite-horizon average reward setting. Our first algorithm \texttt{UCRL2-MNL} applies to the class of communicating MDPs and achieves an $\tilde{\mathcal{O}}(dD\sqrt{T})$ regret, where $d$ is the dimension of feature mapping, $D$ is the diameter of the underlying MDP, and $T$ is the horizon. The second algorithm \texttt{OVIFH-MNL} is computationally more efficient and applies to the more general class of weakly communicating MDPs, for which we show a regret guarantee of $\tilde{\mathcal{O}}(d^{2/5} \mathrm{sp}(v^*)T^{4/5})$ where $\mathrm{sp}(v^*)$ is the span of the associated optimal bias function. We also prove a lower bound of $\Omega(d\sqrt{DT})$ for learning communicating MDPs with MNL transitions of diameter at most $D$. Furthermore, we show a regret lower bound of $\Omega(dH^{3/2}\sqrt{K})$ for learning $H$-horizon episodic MDPs with MNL function approximation where $K$ is the number of episodes, which improves upon the best-known lower bound for the finite-horizon setting.
- Abstract(参考訳): マルコフ決定過程(MDP)の遷移関数がMNLモデルによって与えられる非線形関数近似を用いたモデルベース強化学習について検討した。
我々の最初のアルゴリズム \texttt{UCRL2-MNL} は MDP 通信のクラスに適用され、$\tilde{\mathcal{O}}(dD\sqrt{T})$ regret, ここで $d$ は特徴写像の次元、$D$ は基礎となる MDP の直径、$T$ は地平線である。
第二のアルゴリズム \texttt{OVIFH-MNL} は計算的に効率的であり、より一般的な MDP のクラスに適用され、ここでは、$\tilde{\mathcal{O}}(d^{2/5} \mathrm{sp}(v^*)T^{4/5})$ の後悔の保証を示す。
さらに,MNL関数近似を用いた$H$-horizon episodic MDPsを学習するために,$\Omega(dH^{3/2}\sqrt{K})$の残念な下限を示す。
- Span-Based Optimal Sample Complexity for Average Reward MDPs [6.996002801232415]
平均回帰マルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを生成モデルで学習する際のサンプル複雑性について検討した。
我々は、$widetildeOleft(SAfracH (1-gamma)2varepsilon2 right)$, ここで、$H$は最適ポリシーのバイアス関数のスパンであり、$SA$は状態作用空間の濃度である。
論文 参考訳(メタデータ) (2023-11-22T15:34:44Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - Logarithmic Regret for Reinforcement Learning with Linear Function
Approximation [99.59319332864129]
論文 参考訳(メタデータ) (2020-11-23T17:25:00Z) - Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs [99.59319332864129]
UCBVI-$gamma$が$tildeObig(sqrtSAT/ (1-gamma)1.5big)$ regret, where $S$ is the number of state, $A$ is the number of action, $gamma$ is the discount factor, $T$ is the number of steps。
論文 参考訳(メタデータ) (2020-10-01T17:57:47Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)