論文の概要: Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation
- arxiv url: http://arxiv.org/abs/2102.08940v1
- Date: Wed, 17 Feb 2021 18:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:40:06.973791
- Title: Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation
- Title(参考訳): 線形関数近似による逆mdp学習における最善の後悔
- Authors: Jiafan He and Dongruo Zhou and Quanquan Gu
- Abstract要約: 我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
- 参考スコア(独自算出の注目度): 92.3161051419884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the reinforcement learning for finite-horizon episodic Markov
decision processes with adversarial reward and full information feedback, where
the unknown transition probability function is a linear function of a given
feature mapping. We propose an optimistic policy optimization algorithm with
Bernstein bonus and show that it can achieve $\tilde{O}(dH\sqrt{T})$ regret,
where $H$ is the length of the episode, $T$ is the number of interaction with
the MDP and $d$ is the dimension of the feature mapping. Furthermore, we also
prove a matching lower bound of $\tilde{\Omega}(dH\sqrt{T})$ up to logarithmic
factors. To the best of our knowledge, this is the first computationally
efficient, nearly minimax optimal algorithm for adversarial Markov decision
processes with linear function approximation.
- Abstract(参考訳): 本研究では,有限水平エピソディックマルコフ決定過程の強化学習について,未知の遷移確率関数が与えられた特徴写像の線形関数である対向報酬と全情報フィードバックを用いて検討する。
本稿では,ベルンシュタインボーナスを用いた楽観的ポリシー最適化アルゴリズムを提案し,$\tilde{O}(dH\sqrt{T})$ regretを達成できることを示し,$H$はエピソードの長さであり,$T$はMDPとの相互作用の数であり,$d$は特徴写像の次元であることを示す。
さらに、対数係数まで、$\tilde{\Omega}(dH\sqrt{T})$の一致する下界も証明する。
我々の知る限り、これは線形関数近似を用いた逆マルコフ決定過程に対する計算効率が良く、ほぼ最小の最適アルゴリズムである。
関連論文リスト
- Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded Span [16.49229317664822]
本稿では,無限水平平均逆線形混合マルコフ決定過程(MDPs)を学習するための計算抽出可能なアルゴリズムを提案する。
線形混合MDPのアルゴリズムは,$widetildemathcalO(dsqrtmathrmsp(v*)T)$$$T$以上の最小限の後悔上限を実現する。
論文 参考訳(メタデータ) (2024-10-19T05:45:50Z) - Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation [1.8416014644193066]
ベルマン最適条件下で線形マルコフ決定過程(MDP)と線形混合MDPを学習するアルゴリズムを提案する。
線形MDPに対する我々のアルゴリズムは、$widetildemathcalO(d3/2mathrmsp(v*)sqrtT)$ over $T$タイムステップの最もよく知られた後悔の上限を達成する。
線形混合 MDP に対して、我々のアルゴリズムは、$widetildemathcalO(dcdotmathrm) の後悔境界に達する。
論文 参考訳(メタデータ) (2024-09-16T23:13:42Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Nearly Minimax Optimal Regret for Learning Infinite-horizon
Average-reward MDPs with Linear Function Approximation [95.80683238546499]
本論文では, 線形関数近似を用いた UCRL2 アルゴリズムの拡張として見ることのできる新しいアルゴリズム UCRL2-VTR を提案する。
Bernstein 型ボーナス付き UCRL2-VTR は $tildeO(dsqrtDT)$ の後悔を達成でき、$d$ は特徴写像の次元である。
また、一致した下界$tildeOmega(dsqrtDT)$を証明し、提案したUCRL2-VTRが対数係数の最小値であることを示す。
論文 参考訳(メタデータ) (2021-02-15T02:08:39Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。