論文の概要: VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation
- arxiv url: http://arxiv.org/abs/2212.06069v1
- Date: Mon, 12 Dec 2022 17:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:36:41.627941
- Title: VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation
- Title(参考訳): VO$Q$L:非線形関数近似を用いたモデルフリーRLの最適回帰に向けて
- Authors: Alekh Agarwal, Yujia Jin, Tong Zhang
- Abstract要約: 一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,Q$-learningをベースとした新しいアルゴリズム,Variance-weighted Optimistic $Q$-Learning (VO$Q$L) を設計し,その後悔次元を完全性に限定し,回帰関数クラスに対する有界エルダーを設計する。
- 参考スコア(独自算出の注目度): 43.193807443491814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study time-inhomogeneous episodic reinforcement learning (RL) under
general function approximation and sparse rewards. We design a new algorithm,
Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and
bound its regret assuming completeness and bounded Eluder dimension for the
regression function class. As a special case, VO$Q$L achieves
$\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP
under ($d$-dimensional) linear function approximation, which is asymptotically
optimal. Our algorithm incorporates weighted regression-based upper and lower
bounds on the optimal value function to obtain this improved regret. The
algorithm is computationally efficient given a regression oracle over the
function class, making this the first computationally tractable and
statistically optimal approach for linear MDPs.
- Abstract(参考訳): 一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,分散重み付き楽観的$q$-learning (vo$q$l) という新しいアルゴリズムを$q$-learningに基づいて設計し,その後悔を完全性と回帰関数クラスに対する有界eluder次元に限定した。
特別な場合として、VO$Q$L は$\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under (d$-dimensional) linear function approximation という漸近的に最適である。
本アルゴリズムは, 重み付き回帰に基づく上限と下限を最適値関数に組み込んで, 改良された後悔を得る。
このアルゴリズムは関数クラス上の回帰オラクルによって計算的に効率的であり、線形MDPに対して計算可能で統計的に最適なアプローチとなる。
関連論文リスト
- Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation [1.8416014644193066]
ベルマン最適条件下で線形マルコフ決定過程(MDP)と線形混合MDPを学習するアルゴリズムを提案する。
線形MDPに対する我々のアルゴリズムは、$widetildemathcalO(d3/2mathrmsp(v*)sqrtT)$ over $T$タイムステップの最もよく知られた後悔の上限を達成する。
線形混合 MDP に対して、我々のアルゴリズムは、$widetildemathcalO(dcdotmathrm) の後悔境界に達する。
論文 参考訳(メタデータ) (2024-09-16T23:13:42Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。