論文の概要: Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension
- arxiv url: http://arxiv.org/abs/2005.10804v3
- Date: Fri, 19 Jun 2020 17:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:02:30.188938
- Title: Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension
- Title(参考訳): 一般値関数近似を用いた強化学習:有界エルダー次元による効果的手法
- Authors: Ruosong Wang, Ruslan Salakhutdinov, Lin F. Yang
- Abstract要約: 一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
- 参考スコア(独自算出の注目度): 124.7752517531109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value function approximation has demonstrated phenomenal empirical success in
reinforcement learning (RL). Nevertheless, despite a handful of recent progress
on developing theory for RL with linear function approximation, the
understanding of general function approximation schemes largely remains
missing. In this paper, we establish a provably efficient RL algorithm with
general value function approximation. We show that if the value functions admit
an approximation with a function class $\mathcal{F}$, our algorithm achieves a
regret bound of $\widetilde{O}(\mathrm{poly}(dH)\sqrt{T})$ where $d$ is a
complexity measure of $\mathcal{F}$ that depends on the eluder dimension [Russo
and Van Roy, 2013] and log-covering numbers, $H$ is the planning horizon, and
$T$ is the number interactions with the environment. Our theory generalizes
recent progress on RL with linear value function approximation and does not
make explicit assumptions on the model of the environment. Moreover, our
algorithm is model-free and provides a framework to justify the effectiveness
of algorithms used in practice.
- Abstract(参考訳): 値関数近似は強化学習(rl)において驚くべき経験的成功を示している。
しかしながら、線形関数近似を用いたRLの理論の最近の発展にもかかわらず、一般関数近似スキームの理解はほとんど失われている。
本稿では,一般値関数近似を用いた証明可能なRLアルゴリズムを確立する。
値関数が関数クラス $\mathcal{F}$ の近似を許容すると、我々のアルゴリズムは、$\widetilde{O}(\mathrm{poly}(dH)\sqrt{T})$ の後悔境界を達成し、$d$ は、エリューダー次元 [Russo and Van Roy, 2013] とログカバー数に依存する、$\mathcal{F}$ の複雑性測度であり、$H$ は計画的地平線であり、$T$ は環境との数値相互作用であることを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
さらに,本アルゴリズムはモデルフリーであり,実際に使用されるアルゴリズムの有効性を正当化するためのフレームワークを提供する。
関連論文リスト
- On the Model-Misspecification in Reinforcement Learning [9.864462523050843]
本稿では,強化学習におけるモデルの誤特定に対処するための統一的理論的枠組みを提案する。
本研究では,値に基づく手法とモデルに基づく手法が,局所的不特定誤差境界の下で頑健性を実現することを示す。
また、$zeta$の事前知識なしで同じ後悔の順序を達成できるアルゴリズム的フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T04:31:59Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation [43.193807443491814]
一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,Q$-learningをベースとした新しいアルゴリズム,Variance-weighted Optimistic $Q$-Learning (VO$Q$L) を設計し,その後悔次元を完全性に限定し,回帰関数クラスに対する有界エルダーを設計する。
論文 参考訳(メタデータ) (2022-12-12T17:37:00Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Target Network and Truncation Overcome The Deadly triad in $Q$-Learning [7.532013242448151]
本稿では,ターゲットネットワークとトランケーションを用いた線形関数近似を用いた$Q$-learningの安定設計を提案する。
この結果から,関数近似誤差まで,$mathcalO(epsilon-2)$サンプルの複雑さが示唆された。
これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータの変更を必要とせず、確実に安定である。
論文 参考訳(メタデータ) (2022-03-05T00:54:58Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。