論文の概要: Refined Regret for Adversarial MDPs with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2301.12942v2
- Date: Thu, 1 Jun 2023 22:43:47 GMT
- Title: Refined Regret for Adversarial MDPs with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた逆MDPの精製レグレット
- Authors: Yan Dai, Haipeng Luo, Chen-Yu Wei, Julian Zimmert
- Abstract要約: 我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
- Abstract: We consider learning in an adversarial Markov Decision Process (MDP) where
the loss functions can change arbitrarily over $K$ episodes and the state space
can be arbitrarily large. We assume that the Q-function of any policy is linear
in some known features, that is, a linear function approximation exists. The
best existing regret upper bound for this setting (Luo et al., 2021) is of
order $\tilde{\mathcal O}(K^{2/3})$ (omitting all other dependencies), given
access to a simulator. This paper provides two algorithms that improve the
regret to $\tilde{\mathcal O}(\sqrt K)$ in the same setting. Our first
algorithm makes use of a refined analysis of the Follow-the-Regularized-Leader
(FTRL) algorithm with the log-barrier regularizer. This analysis allows the
loss estimators to be arbitrarily negative and might be of independent
interest. Our second algorithm develops a magnitude-reduced loss estimator,
further removing the polynomial dependency on the number of actions in the
first algorithm and leading to the optimal regret bound (up to logarithmic
terms and dependency on the horizon). Moreover, we also extend the first
algorithm to simulator-free linear MDPs, which achieves $\tilde{\mathcal
O}(K^{8/9})$ regret and greatly improves over the best existing bound
$\tilde{\mathcal O}(K^{14/15})$. This algorithm relies on a better alternative
to the Matrix Geometric Resampling procedure by Neu & Olkhovskaya (2020), which
could again be of independent interest.
- Abstract(参考訳): 我々は,mdp(adversarial markov decision process)において,損失関数がk$エピソード以上で任意に変化し,状態空間が任意に大きくなるような学習を考える。
任意の方針の q-函数は、ある既知の特徴、すなわち線型関数近似において線型であると仮定する。
この設定に対する最大の後悔の上界(Luo et al., 2021)は、シミュレータへのアクセスを条件に、$\tilde{\mathcal O}(K^{2/3})$(他のすべての依存関係を省略)である。
本稿では,同じ設定で$\tilde{\mathcal O}(\sqrt K)$に対する後悔を改善する2つのアルゴリズムを提案する。
さらに、最初のアルゴリズムをシミュレータフリーな線形MDPに拡張し、$\tilde{\mathcal O}(K^{8/9})を後悔し、$\tilde{\mathcal O}(K^{14/15})$に対して大幅に改善する。
このアルゴリズムは、neu & olkhovskaya (2020) による行列幾何学的再サンプリング手順のより良い代替法に依存している。
