論文の概要: The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches
- arxiv url: http://arxiv.org/abs/2203.01491v1
- Date: Thu, 3 Mar 2022 02:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 08:08:51.031825
- Title: The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches
- Title(参考訳): 両世界のベスト - 対数的後悔と方針転換による強化学習
- Authors: Grigoris Velegkas, Zhuoran Yang, Amin Karbasi
- Abstract要約: 漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
- 参考スコア(独自算出の注目度): 84.54669549718075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of regret minimization for episodic
Reinforcement Learning (RL) both in the model-free and the model-based setting.
We focus on learning with general function classes and general model classes,
and we derive results that scale with the eluder dimension of these classes. In
contrast to the existing body of work that mainly establishes
instance-independent regret guarantees, we focus on the instance-dependent
setting and show that the regret scales logarithmically with the horizon $T$,
provided that there is a gap between the best and the second best action in
every state. In addition, we show that such a logarithmic regret bound is
realizable by algorithms with $O(\log T)$ switching cost (also known as
adaptivity complexity). In other words, these algorithms rarely switch their
policy during the course of their execution. Finally, we complement our results
with lower bounds which show that even in the tabular setting, we cannot hope
for regret guarantees lower than $o(\log T)$.
- Abstract(参考訳): 本稿では,モデルフリー設定とモデルベース設定の両方において,エピソディック強化学習(rl)における後悔の最小化の問題について検討する。
我々は、一般関数クラスと一般モデルクラスで学習することに集中し、これらのクラスのeluder次元でスケールする結果を導出する。
インスタンス非依存の遺言保証を主に確立している既存の作業体とは対照的に、インスタンス依存の設定に焦点を合わせ、遺言が各状態のベストアクションと2番目のベストアクションの間にギャップがあることを仮定して、水平線T$と対数的にスケールすることを示します。
さらに、そのような対数的後悔境界は、$O(\log T)$スイッチングコスト(適応複雑性とも呼ばれる)のアルゴリズムによって実現可能であることを示す。
言い換えれば、これらのアルゴリズムは実行中にポリシーを変更することは滅多にない。
最後に、結果を低い境界で補うことで、表の設定であっても、$o(\log T)$より低い後悔の保証を期待できないことを示す。
関連論文リスト
- Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Generalized Bandit Regret Minimizer Framework in Imperfect Information
Extensive-Form Game [9.933208900617174]
我々は,IIEGのダイナミクスを知らない対話型バンディットフィードバック設定の問題点を考察する。
NEを学習するには、後悔最小化器は、全フィードバック損失勾配$ellt$ by $v(zt)$を推定し、後悔を最小化する。
モデルフリーであり、$O(sqrtX B/T+sqrtY C/T)$から$O()$までの最良の収束率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-03-11T13:45:42Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。