論文の概要: Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2111.00633v1
- Date: Mon, 1 Nov 2021 00:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 13:26:28.758660
- Title: Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning
- Title(参考訳): 強化学習におけるサンプル複雑度の水平依存性の設定
- Authors: Yuanzhi Li, Ruosong Wang, Lin F. Yang
- Abstract要約: 我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
- 参考スコア(独自算出の注目度): 82.31436758872715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently there is a surge of interest in understanding the horizon-dependence
of the sample complexity in reinforcement learning (RL). Notably, for an RL
environment with horizon length $H$, previous work have shown that there is a
probably approximately correct (PAC) algorithm that learns an $O(1)$-optimal
policy using $\mathrm{polylog}(H)$ episodes of environment interactions when
the number of states and actions is fixed. It is yet unknown whether the
$\mathrm{polylog}(H)$ dependence is necessary or not. In this work, we resolve
this question by developing an algorithm that achieves the same PAC guarantee
while using only $O(1)$ episodes of environment interactions, completely
settling the horizon-dependence of the sample complexity in RL. We achieve this
bound by (i) establishing a connection between value functions in discounted
and finite-horizon Markov decision processes (MDPs) and (ii) a novel
perturbation analysis in MDPs. We believe our new techniques are of independent
interest and could be applied in related questions in RL.
- Abstract(参考訳): 近年,強化学習(RL)におけるサンプル複雑性の水平依存性の理解への関心が高まっている。
特に、地平線長が$H$のRL環境においては、状態と動作の数が固定されたときに、$\mathrm{polylog}(H)$環境相互作用のエピソードを用いて、$O(1)$-最適化ポリシーを学習する、ほぼ正しい(PAC)アルゴリズムが存在することを示した。
しかし、$\mathrm{polylog}(h)$ の依存が必要かどうかはまだ不明である。
本研究では,同じpac保証を実現するアルゴリズムを開発しながら,環境間インタラクションの$o(1)$のエピソードのみを使用して,rlにおけるサンプル複雑性の地平線依存性を完全に解決する。
私たちはこの限界を達成する
一 割引及び有限水平マルコフ決定過程(MDP)における値関数の接続を確立すること。
(II)MDPにおける新しい摂動解析
我々の新しい技術は独立した興味を持ち、RLの関連する問題に適用できると考えている。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Optimal Sample Complexity of Reinforcement Learning for Mixing
Discounted Markov Decision Processes [1.0445957451908694]
マルコフ決定過程(MDP)における無限地平面割引報酬の最大化のための最適なサンプル複雑性理論を考える。
多くの関心の応用において、最適ポリシー(または全てのポリシー)は混合を誘導する。
我々の分析は、一般状態空間 MDP の RL 問題の研究に使用できるため、独立した関心を持つ再生型アイデアに基礎を置いている。
論文 参考訳(メタデータ) (2023-02-15T05:43:17Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Towards Tight Bounds on the Sample Complexity of Average-reward MDPs [39.01663172393174]
生成モデルにアクセス可能な無限水平平均回帰マルコフ決定過程の最適方針を求める。
状態-作用対あたりのサンプルを$widetildeO(t_mathrmmix epsilon-3)$ (oblivious) で解決するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-13T17:18:11Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。