論文の概要: A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret
- arxiv url: http://arxiv.org/abs/2006.04354v2
- Date: Wed, 9 Dec 2020 00:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:22:16.489125
- Title: A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret
- Title(参考訳): 準最適後悔を伴う無限ホリゾン平均回帰mdpのためのモデルフリー学習アルゴリズム
- Authors: Mehdi Jafarnia-Jahromi, Chen-Yu Wei, Rahul Jain, Haipeng Luo
- Abstract要約: 無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
- 参考スコア(独自算出の注目度): 44.374427255708135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, model-free reinforcement learning has attracted research attention
due to its simplicity, memory and computation efficiency, and the flexibility
to combine with function approximation. In this paper, we propose Exploration
Enhanced Q-learning (EE-QL), a model-free algorithm for infinite-horizon
average-reward Markov Decision Processes (MDPs) that achieves regret bound of
$O(\sqrt{T})$ for the general class of weakly communicating MDPs, where $T$ is
the number of interactions. EE-QL assumes that an online concentrating
approximation of the optimal average reward is available. This is the first
model-free learning algorithm that achieves $O(\sqrt T)$ regret without the
ergodic assumption, and matches the lower bound in terms of $T$ except for
logarithmic factors. Experiments show that the proposed algorithm performs as
well as the best known model-based algorithms.
- Abstract(参考訳): 近年, モデルレス強化学習は, 単純さ, メモリ, 計算効率, 関数近似と組み合わせる柔軟性など, 研究の注目を集めている。
本稿では,無限ホリゾン平均回帰マルコフ決定プロセス(mdps)のためのモデルフリーなアルゴリズムである,弱通信型mdpsの一般クラスに対して,o(\sqrt{t})$の後悔の束縛を達成するための拡張型q-learning(ee-ql)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴードの仮定なしで$o(\sqrt t)$ regretを達成する最初のモデルフリー学習アルゴリズムであり、対数因子を除いては$t$という下限に一致する。
実験の結果,提案アルゴリズムは最もよく知られたモデルベースアルゴリズムと同様に動作することがわかった。
関連論文リスト
- The Plug-in Approach for Average-Reward and Discounted MDPs: Optimal Sample Complexity Analysis [6.996002801232415]
平均回帰マルコフ決定過程において,$varepsilon$-optimal Policyを学習するためのプラグインアプローチのサンプル複雑性について検討した。
この問題の最も単純なアルゴリズムであるにもかかわらず、プラグインのアプローチは理論上は分析されていない。
論文 参考訳(メタデータ) (2024-10-10T05:08:14Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文 参考訳(メタデータ) (2021-10-07T07:59:50Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。