論文の概要: Nearly Horizon-Free Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.14077v1
- Date: Thu, 25 Mar 2021 18:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:56:18.131522
- Title: Nearly Horizon-Free Offline Reinforcement Learning
- Title(参考訳): ほぼ水平自由なオフライン強化学習
- Authors: Tongzheng Ren, Jialian Li, Bo Dai, Simon S. Du, Sujay Sanghavi
- Abstract要約: S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
- 参考スコア(独自算出の注目度): 97.36751930393245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit offline reinforcement learning on episodic time-homogeneous
tabular Markov Decision Processes with $S$ states, $A$ actions and planning
horizon $H$. Given the collected $N$ episodes data with minimum cumulative
reaching probability $d_m$, we obtain the first set of nearly $H$-free sample
complexity bounds for evaluation and planning using the empirical MDPs: 1.For
the offline evaluation, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}}
\right)$ error rate, which matches the lower bound and does not have additional
dependency on $\poly\left(S,A\right)$ in higher-order term, that is different
from previous works~\citep{yin2020near,yin2020asymptotically}. 2.For the
offline policy optimization, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}}
+ \frac{S}{Nd_m}\right)$ error rate, improving upon the best known result by
\cite{cui2020plug}, which has additional $H$ and $S$ factors in the main term.
Furthermore, this bound approaches the
$\Omega\left(\sqrt{\frac{1}{Nd_m}}\right)$ lower bound up to logarithmic
factors and a high-order term. To the best of our knowledge, these are the
first set of nearly horizon-free bounds in offline reinforcement learning.
- Abstract(参考訳): S$状態、$A$アクション、計画的地平$H$で、時間的均質な表形式マルコフ決定プロセスのオフライン強化学習を再考する。
Given the collected $N$ episodes data with minimum cumulative reaching probability $d_m$, we obtain the first set of nearly $H$-free sample complexity bounds for evaluation and planning using the empirical MDPs: 1.For the offline evaluation, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} \right)$ error rate, which matches the lower bound and does not have additional dependency on $\poly\left(S,A\right)$ in higher-order term, that is different from previous works~\citep{yin2020near,yin2020asymptotically}.
2.オフラインポリシー最適化のために、$\tilde{o}\left(\sqrt{\frac{1}{nd_m}} + \frac{s}{nd_m}\right)$ エラーレートを求め、主項に$h$と$s$要素を追加する \cite{cui2020plug} によって最もよく知られた結果を改善する。
さらに、この境界は$\Omega\left(\sqrt {\frac{1}{Nd_m}}\right)$ 対数因子への下界と高次項に近づく。
私たちの知る限りでは、これらはオフライン強化学習における、ほぼ地平線のない境界の最初のセットです。
関連論文リスト
- Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Horizon-Free Reinforcement Learning in Polynomial Time: the Power of
Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。
この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文 参考訳(メタデータ) (2022-03-24T08:14:12Z) - Optimal SQ Lower Bounds for Learning Halfspaces with Massart Noise [9.378684220920562]
マスアートノイズの存在下でハーフスペースを学習するための、最も厳密な統計クエリ(SQ)の下界。
任意の $eta in [0,1/2]$ に対して、$eta$ よりも誤り分類誤差の少ない全ての SQ アルゴリズムは、スーパーポリノミカルな精度のクエリを必要とすることを示す。
論文 参考訳(メタデータ) (2022-01-24T17:33:19Z) - Differentially Private $\ell_1$-norm Linear Regression with Heavy-tailed
Data [22.233705161499273]
我々は$epsilon$-DPモデルにおける$ell_1$-norm線形回帰に注目した。
我々は高い確率で$tildeO(sqrtfracdnepsilon)$の上限を達成することができることを示す。
我々のアルゴリズムは、データの各座標が有界なモーメントを持つような、よりリラックスしたケースにも拡張できる。
論文 参考訳(メタデータ) (2022-01-10T08:17:05Z) - Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - Agnostic Q-learning with Function Approximation in Deterministic
Systems: Tight Bounds on Approximation Error and Sample Complexity [94.37110094442136]
本稿では,決定論的システムにおける関数近似を用いたQ$学習の問題について検討する。
もし$delta = Oleft(rho/sqrtdim_Eright)$なら、$Oleft(dim_Eright)$を使って最適なポリシーを見つけることができる。
論文 参考訳(メタデータ) (2020-02-17T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。