論文の概要: The Power of Resets in Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.15417v2
- Date: Fri, 26 Apr 2024 14:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:15:51.758475
- Title: The Power of Resets in Online Reinforcement Learning
- Title(参考訳): オンライン強化学習におけるリセットの力
- Authors: Zakaria Mhammedi, Dylan J. Foster, Alexander Rakhlin,
- Abstract要約: ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
- 参考スコア(独自算出の注目度): 73.64852266145387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulators are a pervasive tool in reinforcement learning, but most existing algorithms cannot efficiently exploit simulator access -- particularly in high-dimensional domains that require general function approximation. We explore the power of simulators through online reinforcement learning with {local simulator access} (or, local planning), an RL protocol where the agent is allowed to reset to previously observed states and follow their dynamics during training. We use local simulator access to unlock new statistical guarantees that were previously out of reach: - We show that MDPs with low coverability (Xie et al. 2023) -- a general structural condition that subsumes Block MDPs and Low-Rank MDPs -- can be learned in a sample-efficient fashion with only $Q^{\star}$-realizability (realizability of the optimal state-value function); existing online RL algorithms require significantly stronger representation conditions. - As a consequence, we show that the notorious Exogenous Block MDP problem (Efroni et al. 2022) is tractable under local simulator access. The results above are achieved through a computationally inefficient algorithm. We complement them with a more computationally efficient algorithm, RVFS (Recursive Value Function Search), which achieves provable sample complexity guarantees under a strengthened statistical assumption known as pushforward coverability. RVFS can be viewed as a principled, provable counterpart to a successful empirical paradigm that combines recursive search (e.g., MCTS) with value function approximation.
- Abstract(参考訳): シミュレータは強化学習において普及するツールであるが、既存のアルゴリズムのほとんどはシミュレータアクセスを効率的に活用することはできない。
エージェントが以前に観測された状態にリセットし、トレーニング中にそのダイナミクスに従うことができるRLプロトコルであるローカルシミュレータアクセス(またはローカルプランニング)を用いて、オンライン強化学習を通じてシミュレータのパワーを探索する。
我々は、以前到達できなかった新しい統計的保証をアンロックするために、ローカルシミュレーターアクセスを使用します。 - カバー可能性の低いMDP(Xie et al 2023) -- Block MDPとLow-Rank MDPを仮定する一般的な構造条件 -- が、Q^{\star}$-realizability(最適状態値関数の実現可能性)でサンプル効率のよい方法で学習できることを示します。
その結果, ローカルシミュレータアクセスにおいて, 悪名高い外因性ブロック MDP 問題 (Efroni et al 2022) がトラクタブルであることが判明した。
上記の結果は計算的に非効率なアルゴリズムによって達成される。
本稿では,より計算効率のよい RVFS (Recursive Value Function Search) を用いて補足する。
RVFSは、再帰的探索(例えばMCTS)と値関数近似を組み合わせた経験的パラダイムの原則であり、証明可能なものであると見なすことができる。
関連論文リスト
- Efficient Function Placement in Virtual Networks: An Online Learning Approach [7.206295719344847]
本稿では,仮想関数配置問題のモデルと,マルチアームバンディットに基づくアイデアを用いた新しいアルゴリズムを提案する。
これらのアルゴリズムは最適な配置ポリシーを迅速に学習し、その後悔は高い確率で実現可能性制約を尊重しながら、少なくとも$O(N M sqrtTln T )$で増大する。
論文 参考訳(メタデータ) (2024-10-17T16:03:43Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Efficient Local Planning with Linear Function Approximation [27.90696655434707]
線形関数近似とシミュレータを用いたクエリと計算効率のよい計画アルゴリズムについて検討する。
本稿では,モンテカルロ最小二乗政策反復(MC-LSPI)というアルゴリズムを提案する。
我々の研究の技術的貢献の1つは、仮想ポリシーアルゴリズムを利用した新しい証明手法の導入である。
論文 参考訳(メタデータ) (2021-08-12T04:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。