論文の概要: UCB Momentum Q-learning: Correcting the bias without forgetting
- arxiv url: http://arxiv.org/abs/2103.01312v1
- Date: Mon, 1 Mar 2021 21:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 17:47:24.082072
- Title: UCB Momentum Q-learning: Correcting the bias without forgetting
- Title(参考訳): UCBモメンタムQ-ラーニング:忘れずにバイアスを修正する
- Authors: Pierre Menard, Omar Darwiche Domingues, Xuedong Shang, Michal Valko
- Abstract要約: UCBMQはQラーニングに基づいており、モーメント項を追加し、探索に対処するための不確実性に直面した楽観主義の原則に依存しています。
私たちは、$H$がエピソードの長さ、$S$の状態の数、$A$アクションの数、$T$エピソードの数、およびpoly$log(SAHT)$の用語を無視した、少なくとも$O(sqrtH3SAT+ H4 S A )$の後悔を保証することができます。
UCBMQは、下界に同時に一致する最初のアルゴリズムである
- 参考スコア(独自算出の注目度): 36.9759584104883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose UCBMQ, Upper Confidence Bound Momentum Q-learning, a new algorithm
for reinforcement learning in tabular and possibly stage-dependent, episodic
Markov decision process. UCBMQ is based on Q-learning where we add a momentum
term and rely on the principle of optimism in face of uncertainty to deal with
exploration. Our new technical ingredient of UCBMQ is the use of momentum to
correct the bias that Q-learning suffers while, at the same time, limiting the
impact it has on the second-order term of the regret. For UCBMQ , we are able
to guarantee a regret of at most $O(\sqrt{H^3SAT}+ H^4 S A )$ where $H$ is the
length of an episode, $S$ the number of states, $A$ the number of actions, $T$
the number of episodes and ignoring terms in poly$log(SAHT)$. Notably, UCBMQ is
the first algorithm that simultaneously matches the lower bound of
$\Omega(\sqrt{H^3SAT})$ for large enough $T$ and has a second-order term (with
respect to the horizon $T$) that scales only linearly with the number of states
$S$.
- Abstract(参考訳): UCBMQ, 上信頼境界モーメントQ-ラーニング, 表式およびステージに依存しない, エピソディックマルコフ決定プロセスにおける強化学習のための新しいアルゴリズムを提案する。
UCBMQはQラーニングに基づいており、モーメント項を追加し、探索に対処するための不確実性に直面した楽観主義の原則に依存しています。
ucbmqの新たな技術的要素は、q-learningが抱えるバイアスを修正するためにモメンタムを使用すると同時に、後悔の2次項への影響も制限することです。
UCBMQの場合、$H$がエピソードの長さ、$S$がステートの数、$A$がアクションの数、$T$がエピソードの数、およびpoly$log(SAHT)$の用語を無視する最大$O(\sqrt{H^3SAT}+ H^4 S A)$の後悔を保証することができます。
特に、UBBMQは、十分に大きな$T$に対して、$\Omega(\sqrt{H^3SAT})$の下限を同時に一致させる最初のアルゴリズムであり、(地平線$T$に関して)2次項を持ち、$S$の状態数とのみ線形にスケールする。
関連論文リスト
- Finite-Time Analysis of Simultaneous Double Q-learning [4.36117236405564]
ダブル$Q$-learningは、$Q$-learningアップデートで過大評価バイアスになる傾向がある。
本稿では,Double $Q$-learning (SDQ) と有限時間解析を組み合わせた改良型Double $Q$-learningを提案する。
論文 参考訳(メタデータ) (2024-06-14T11:47:25Z) - From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses [47.6564858125342]
Bayes-UCBVI は Kaufmann らによる Bayes-UCB アルゴリズムの自然な拡張である。
私たちは、$widetildeO(sqrtH3SAT)$ ここで、$H$はひとつのエピソードの長さ、$S$は状態の数、$A$はアクションの数、$T$はエピソードの数で、$Omega(sqrtH3SAT)$の低いバウンドの$Omega(sqrtH3SAT)$と一致する。
論文 参考訳(メタデータ) (2022-05-16T14:13:06Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Model-Free Non-Stationary RL: Near-Optimal Regret and Applications in
Multi-Agent RL and Inventory Control [28.80743320843154]
非定常RLのための最初のモデルフリーアルゴリズムであるアッパー信頼境界を用いたリスタートQラーニング(RestartQ-UCB)を提案する。
我々は,情報理論的下限を$Omega(Sfrac13 Afrac13 Deltafrac13 Hfrac23 Tfrac23)$,非定常RLで最初の下限を設定すれば,アルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2020-10-07T04:55:56Z) - Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs [99.59319332864129]
UCBVI-$gamma$が$tildeObig(sqrtSAT/ (1-gamma)1.5big)$ regret, where $S$ is the number of state, $A$ is the number of action, $gamma$ is the discount factor, $T$ is the number of steps。
さらに、ハードMDPのクラスを構築し、任意のアルゴリズムに対して、期待される後悔は少なくとも$tildeOmegabig(sqrtSAT/)であることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:57:47Z) - Improved Analysis of UCRL2 with Empirical Bernstein Inequality [103.85739579538867]
マルコフ決定過程の通信における探索探索の問題点を考察する。
S$ 状態、$A$ アクション、$Gamma leq S$ 次の状態と直径$D$を持つ任意の MDP に対して、UCRL2B の後悔は $widetildeO(sqrtDGamma S A T)$ に制限される。
論文 参考訳(メタデータ) (2020-07-10T15:52:21Z) - Provably More Efficient Q-Learning in the
One-Sided-Feedback/Full-Feedback Settings [14.290119665435121]
本稿では,既存のアルゴリズムよりも効率が向上した新しいQ-ラーニングアルゴリズムであるElimination-Based Half-Q-Learning(HQL)を提案する。
また、フルフィードバック設定のためのアルゴリズムであるFull-Q-Learning(FQL)の簡易版も提供します。
我々の数値実験は、HQLとFQLの優れた効率と、強化学習とよりリッチなフィードバックモデルを組み合わせる可能性を示している。
論文 参考訳(メタデータ) (2020-06-30T19:47:38Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。