論文の概要: Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary
- arxiv url: http://arxiv.org/abs/2205.13044v1
- Date: Wed, 25 May 2022 20:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:27:27.350174
- Title: Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary
- Title(参考訳): 非定常環境における最適ゴール指向強化学習
- Authors: Liyu Chen and Haipeng Luo
- Abstract要約: 目標指向強化学習における動的後悔の研究を行う。
- 参考スコア(独自算出の注目度): 40.027926921772355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of dynamic regret minimization for goal-oriented
reinforcement learning modeled by a non-stationary stochastic shortest path
problem with changing cost and transition functions. We start by establishing a
lower bound $\Omega((B_{\star} SAT_{\star}(\Delta_c +
B_{\star}^2\Delta_P))^{1/3}K^{2/3})$, where $B_{\star}$ is the maximum expected
cost of the optimal policy of any episode starting from any state, $T_{\star}$
is the maximum hitting time of the optimal policy of any episode starting from
the initial state, $SA$ is the number of state-action pairs, $\Delta_c$ and
$\Delta_P$ are the amount of changes of the cost and transition functions
respectively, and $K$ is the number of episodes. The different roles of
$\Delta_c$ and $\Delta_P$ in this lower bound inspire us to design algorithms
that estimate costs and transitions separately. Specifically, assuming the
knowledge of $\Delta_c$ and $\Delta_P$, we develop a simple but sub-optimal
algorithm and another more involved minimax optimal algorithm (up to
logarithmic terms). These algorithms combine the ideas of finite-horizon
approximation [Chen et al., 2022a], special Bernstein-style bonuses of the MVP
algorithm [Zhang et al., 2020], adaptive confidence widening [Wei and Luo,
2021], as well as some new techniques such as properly penalizing long-horizon
policies. Finally, when $\Delta_c$ and $\Delta_P$ are unknown, we develop a
variant of the MASTER algorithm [Wei and Luo, 2021] and integrate the
aforementioned ideas into it to achieve $\widetilde{O}(\min\{B_{\star}
(B_{\star}^2S^2AT_{\star}(\Delta_c+B_{\star}\Delta_P))^{1/3}K^{2/3}\})$ regret,
where $L$ is the unknown number of changes of the environment.
- Abstract(参考訳): コストと遷移関数を変化させた非定常確率的最短経路問題による目標指向強化学習のための動的後悔最小化の研究を開始する。
We start by establishing a lower bound $\Omega((B_{\star} SAT_{\star}(\Delta_c + B_{\star}^2\Delta_P))^{1/3}K^{2/3})$, where $B_{\star}$ is the maximum expected cost of the optimal policy of any episode starting from any state, $T_{\star}$ is the maximum hitting time of the optimal policy of any episode starting from the initial state, $SA$ is the number of state-action pairs, $\Delta_c$ and $\Delta_P$ are the amount of changes of the cost and transition functions respectively, and $K$ is the number of episodes.
具体的には、$\Delta_c$ と $\Delta_P$ の知識を仮定して、単純だが準最適アルゴリズムと、より複雑な極小最適化アルゴリズム(対数項まで)を開発する。
これらのアルゴリズムは、有限ホリゾン近似 [chen et al., 2022a]、mvpアルゴリズム [zhang et al., 2020]、適応信頼拡大 [wei and luo, 2021] の特別ベルンシュタイン型ボーナスのアイデアと、長ホリゾンポリシーの適切なペナルティなどの新しい手法を組み合わせたものである。
最後に、$\Delta_c$ と $\Delta_P$ が未知の場合には、MASTERアルゴリズムの変種 (Wei and Luo, 2021) を開発し、上記のアイデアを組み込んで、$\widetilde{O}(\min\{B_{\star} S\sqrt{ALK}, (B_{\star}^2S^2AT_{\star}(\Delta_c+B_{\star}\Delta_P))^{1/3}K^{2/3}\}) を得る。
- Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing [8.723136784230906]
後悔と最適化のアルゴリズム内で対称性を活用することで, $mathcalO(Np2)$少なめの初等演算を伴って動作する,ほぼ後悔のいく$_optimalを開発する。
論文 参考訳(メタデータ) (2023-09-08T19:17:03Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Improved No-Regret Algorithms for Stochastic Shortest Path with Linear
MDP [31.62899359543925]
我々の最初のアルゴリズムは計算効率が高く、後悔すべき$widetildeOleft(sqrtd3B_star2T_star Kright)$を達成している。
論文 参考訳(メタデータ) (2021-12-18T06:47:31Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Finding the Stochastic Shortest Path with Low Regret: The Adversarial
Cost and Unknown Transition Case [29.99619764839178]
具体的には、全情報設定を後悔する$widetildeO(sqrtS3A2DT_star K)を実現するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-02-10T06:33:04Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Near-optimal Regret Bounds for Stochastic Shortest Path [63.029132134792555]
最短経路 (SSP) は計画と制御においてよく知られた問題であり、エージェントは最小の総コストで目標状態に到達する必要がある。
任意の学習アルゴリズムは、最悪の場合、少なくとも$Omega(B_star sqrt|S| |A|K)$後悔しなければならない。
論文 参考訳(メタデータ) (2020-02-23T09:10:14Z)