論文の概要: Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation
- arxiv url: http://arxiv.org/abs/2206.09421v1
- Date: Sun, 19 Jun 2022 14:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:50:38.683445
- Title: Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation
- Title(参考訳): 関数近似による epsilon-greedy reinforcement learning の保証
- Authors: Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari, Karthik
Sridharan
- Abstract要約: エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
- 参考スコア(独自算出の注目度): 69.1524391595912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Myopic exploration policies such as epsilon-greedy, softmax, or Gaussian
noise fail to explore efficiently in some reinforcement learning tasks and yet,
they perform well in many others. In fact, in practice, they are often selected
as the top choices, due to their simplicity. But, for what tasks do such
policies succeed? Can we give theoretical guarantees for their favorable
performance? These crucial questions have been scarcely investigated, despite
the prominent practical importance of these policies. This paper presents a
theoretical analysis of such policies and provides the first regret and
sample-complexity bounds for reinforcement learning with myopic exploration.
Our results apply to value-function-based algorithms in episodic MDPs with
bounded Bellman Eluder dimension. We propose a new complexity measure called
myopic exploration gap, denoted by alpha, that captures a structural property
of the MDP, the exploration policy and the given value function class. We show
that the sample-complexity of myopic exploration scales quadratically with the
inverse of this quantity, 1 / alpha^2. We further demonstrate through concrete
examples that myopic exploration gap is indeed favorable in several tasks where
myopic exploration succeeds, due to the corresponding dynamics and reward
structure.
- Abstract(参考訳): エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習課題において効率的に探索することができないが、他の多くの分野ではうまく機能する。
実際、それらは多くの場合、その単純さのために、最高の選択肢として選ばれます。
しかし、こうした政策が成功するタスクは何か。
彼らの好成績を理論的に保証できますか?
これらの重要な問題は、これらの政策の実際的な重要性にもかかわらず、ほとんど調査されていない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑な境界を提供する。
ベルマンエルダー次元が有界なエピソードMDPにおける値関数に基づくアルゴリズムに適用した。
本研究では,mdpの構造的性質,探索方針,与えられた値関数クラスを捉えた,筋明性探索ギャップと呼ばれる新しい複雑性尺度を提案する。
この量の逆数である1/α^2と、ミオピック探索のサンプル複雑度は2次にスケールすることを示した。
さらに具体例を通して、ミオピック探索が成功するいくつかのタスクにおいて、対応するダイナミクスと報酬構造により、ミオピック探索ギャップが本当に有利であることを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Careful at Estimation and Bold at Exploration [21.518406902400432]
政策に基づく探索は、決定論的政策強化学習における継続的な行動空間にとって有益である。
しかし、政策に基づく探索には、目的のない探索と政策の分岐という2つの大きな問題がある。
政策勾配とは別に,これらの問題を緩和するための新たな探索戦略を導入する。
論文 参考訳(メタデータ) (2023-08-22T10:52:46Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Policy Gradient from Demonstration and Curiosity [9.69620214666782]
本研究では,探索を促進し,本質的な報酬学習を促進するために,統合されたポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは, 疎外報酬信号を用いて, シミュレーションされたタスクに対して評価を行った。
エージェントは専門家の行動を模倣し、高いリターンを維持することができることがわかった。
論文 参考訳(メタデータ) (2020-04-22T07:57:39Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。