論文の概要: Improved Analysis of UCRL2 with Empirical Bernstein Inequality
- arxiv url: http://arxiv.org/abs/2007.05456v1
- Date: Fri, 10 Jul 2020 15:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:15:29.655137
- Title: Improved Analysis of UCRL2 with Empirical Bernstein Inequality
- Title(参考訳): 経験的ベルンシュタイン不等式を用いたUCRL2の改良解析
- Authors: Ronan Fruit, Matteo Pirotta, Alessandro Lazaric
- Abstract要約: マルコフ決定過程の通信における探索探索の問題点を考察する。
S$ 状態、$A$ アクション、$Gamma leq S$ 次の状態と直径$D$を持つ任意の MDP に対して、UCRL2B の後悔は $widetildeO(sqrtDGamma S A T)$ に制限される。
- 参考スコア(独自算出の注目度): 103.85739579538867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of exploration-exploitation in communicating Markov
Decision Processes. We provide an analysis of UCRL2 with Empirical Bernstein
inequalities (UCRL2B). For any MDP with $S$ states, $A$ actions, $\Gamma \leq
S$ next states and diameter $D$, the regret of UCRL2B is bounded as
$\widetilde{O}(\sqrt{D\Gamma S A T})$.
- Abstract(参考訳): マルコフ決定過程の通信における探索探索の問題点を考察する。
経験的ベルンシュタイン不等式 (UCRL2B) を用いた UCRL2 の解析を行った。
S$ 状態、$A$ アクション、$\Gamma \leq S$ 次の状態と直径$D$ を持つ任意の MDP に対して、UCRL2B の後悔は $\widetilde{O}(\sqrt{D\Gamma S A T})$ となる。
関連論文リスト
- A Finite Sample Complexity Bound for Distributionally Robust Q-learning [17.96094201655567]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses [47.6564858125342]
Bayes-UCBVI は Kaufmann らによる Bayes-UCB アルゴリズムの自然な拡張である。
私たちは、$widetildeO(sqrtH3SAT)$ ここで、$H$はひとつのエピソードの長さ、$S$は状態の数、$A$はアクションの数、$T$はエピソードの数で、$Omega(sqrtH3SAT)$の低いバウンドの$Omega(sqrtH3SAT)$と一致する。
論文 参考訳(メタデータ) (2022-05-16T14:13:06Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Communication Efficient Parallel Reinforcement Learning [34.77250498401055]
我々は、$m$エージェントが$s$状態と$a$アクションを持つ$m$同一および独立環境と相互作用する問題を考える。
我々はエージェントが不適切なコミュニケーションラウンドで後悔を最小限に抑えるアルゴリズムを見つけることを目的としている。
論文 参考訳(メタデータ) (2021-02-22T02:46:36Z) - Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs [99.59319332864129]
UCBVI-$gamma$が$tildeObig(sqrtSAT/ (1-gamma)1.5big)$ regret, where $S$ is the number of state, $A$ is the number of action, $gamma$ is the discount factor, $T$ is the number of steps。
さらに、ハードMDPのクラスを構築し、任意のアルゴリズムに対して、期待される後悔は少なくとも$tildeOmegabig(sqrtSAT/)であることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:57:47Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。