論文の概要: Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.01264v1
- Date: Fri, 2 Jul 2021 20:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:56:21.780253
- Title: Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning
- Title(参考訳): バリューファンクションギャップを超えて: エピソード強化学習のためのインスタンス依存レグレスト境界の改善
- Authors: Christoph Dann, Teodor V. Marinov, Mehryar Mohri, Julian Zimmert
- Abstract要約: 有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
- 参考スコア(独自算出の注目度): 50.44564503645015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide improved gap-dependent regret bounds for reinforcement learning in
finite episodic Markov decision processes. Compared to prior work, our bounds
depend on alternative definitions of gaps. These definitions are based on the
insight that, in order to achieve a favorable regret, an algorithm does not
need to learn how to behave optimally in states that are not reached by an
optimal policy. We prove tighter upper regret bounds for optimistic algorithms
and accompany them with new information-theoretic lower bounds for a large
class of MDPs. Our results show that optimistic algorithms can not achieve the
information-theoretic lower bounds even in deterministic MDPs unless there is a
unique optimal policy.
- Abstract(参考訳): 有限エピソディックマルコフ決定過程における強化学習のためのギャップ依存的後悔境界の改善を提案する。
以前の仕事と比較して、私たちの境界はギャップの代替定義に依存する。
これらの定義は、好意的な後悔を達成するために、アルゴリズムが最適なポリシーによって達成されない状態において最適に振る舞う方法を学習する必要がないという洞察に基づいている。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
楽観的アルゴリズムは, 決定論的 MDP においても, 独特な最適政策がない限り, 情報理論の下限を達成できないことを示す。
関連論文リスト
- Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Cascaded Gaps: Towards Gap-Dependent Regret for Risk-Sensitive
Reinforcement Learning [14.036298712230233]
エントロピー的リスク尺度に基づいて,リスクに敏感な強化学習のためのギャップ依存的後悔保証について検討した。
マルコフ決定過程における2つのモデル自由アルゴリズムに対する非漸近的および対数的後悔境界を導出する。
論文 参考訳(メタデータ) (2022-03-07T03:07:09Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Best-Case Lower Bounds in Online Learning [9.01310450044549]
オンライン学習における研究の多くは、後悔に対する下線上界の研究に焦点を当てている。
本研究では,オンライン凸最適化における最良ケース下界の研究を開始する。
我々はFTRLの線形化バージョンが負の線形後悔を達成できることを示した。
論文 参考訳(メタデータ) (2021-06-23T23:24:38Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。