論文の概要: Layered State Discovery for Incremental Autonomous Exploration
- arxiv url: http://arxiv.org/abs/2302.03789v1
- Date: Tue, 7 Feb 2023 22:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:49:49.211003
- Title: Layered State Discovery for Incremental Autonomous Exploration
- Title(参考訳): インクリメンタル自律探査のための層状状態発見
- Authors: Liyu Chen, Andrea Tirinzoni, Alessandro Lazaric, Matteo Pirotta
- Abstract要約: Layered Autonomous Exploration (LAE) は、$tildemathcalO(LSrightarrow_LAln12(Srightarrow_LAln12(Srightarrow_LAln12(Srightarrow_LAln12(Srightar row_LAln12)Srightarrow_LAln12(Srightarrow_LAln12)Srightarrow_LAln12(Srightarrow_LAln12)のサンプル複雑性を達成するAXの新しいアルゴリズムである。
- 参考スコア(独自算出の注目度): 106.37656068276901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the autonomous exploration (AX) problem proposed by Lim & Auer
(2012). In this setting, the objective is to discover a set of
$\epsilon$-optimal policies reaching a set $\mathcal{S}_L^{\rightarrow}$ of
incrementally $L$-controllable states. We introduce a novel layered
decomposition of the set of incrementally $L$-controllable states that is based
on the iterative application of a state-expansion operator. We leverage these
results to design Layered Autonomous Exploration (LAE), a novel algorithm for
AX that attains a sample complexity of
$\tilde{\mathcal{O}}(LS^{\rightarrow}_{L(1+\epsilon)}\Gamma_{L(1+\epsilon)} A
\ln^{12}(S^{\rightarrow}_{L(1+\epsilon)})/\epsilon^2)$, where
$S^{\rightarrow}_{L(1+\epsilon)}$ is the number of states that are
incrementally $L(1+\epsilon)$-controllable, $A$ is the number of actions, and
$\Gamma_{L(1+\epsilon)}$ is the branching factor of the transitions over such
states. LAE improves over the algorithm of Tarbouriech et al. (2020a) by a
factor of $L^2$ and it is the first algorithm for AX that works in a
countably-infinite state space. Moreover, we show that, under a certain
identifiability assumption, LAE achieves minimax-optimal sample complexity of
$\tilde{\mathcal{O}}(LS^{\rightarrow}_{L}A\ln^{12}(S^{\rightarrow}_{L})/\epsilon^2)$,
outperforming existing algorithms and matching for the first time the lower
bound proved by Cai et al. (2022) up to logarithmic factors.
- Abstract(参考訳): lim & auer (2012) が提案した自律探査 (ax) 問題について検討した。
この設定では、$\epsilon$-Optimal Policy がセット $\mathcal{S}_L^{\rightarrow}$ に到達し、段階的に$L$-制御可能な状態を見つけることが目的である。
本稿では,状態拡張演算子の反復的適用に基づく,漸進的に$L$制御可能な状態集合の階層分解を導入する。
We leverage these results to design Layered Autonomous Exploration (LAE), a novel algorithm for AX that attains a sample complexity of $\tilde{\mathcal{O}}(LS^{\rightarrow}_{L(1+\epsilon)}\Gamma_{L(1+\epsilon)} A \ln^{12}(S^{\rightarrow}_{L(1+\epsilon)})/\epsilon^2)$, where $S^{\rightarrow}_{L(1+\epsilon)}$ is the number of states that are incrementally $L(1+\epsilon)$-controllable, $A$ is the number of actions, and $\Gamma_{L(1+\epsilon)}$ is the branching factor of the transitions over such states.
LAEはTarbouriech et al. (2020a)のアルゴリズムを$L^2$の係数で改善し、数え切れない無限の状態空間で動作するAXの最初のアルゴリズムである。
さらに、ある識別可能性仮定の下で、LAE は $\tilde{\mathcal{O}}(LS^{\rightarrow}_{L}A\ln^{12}(S^{\rightarrow}_{L})/\epsilon^2)$ の最小値-最適サンプル複雑性を達成し、既存のアルゴリズムを上回り、Cai et al. (2022) によって証明された下界が対数因子まで初めて一致することを示す。
関連論文リスト
- Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。