論文の概要: {\epsilon}-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy
Exploration in Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.00869v1
- Date: Thu, 2 Jul 2020 04:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:43:21.900711
- Title: {\epsilon}-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy
Exploration in Model-Free Reinforcement Learning
- Title(参考訳): epsilon}-bmc:モデルフリー強化学習におけるepsilon-greedy探索へのベイズアンサンブルアプローチ
- Authors: Michael Gimelfarb, Scott Sanner, Chi-Guhn Lee
- Abstract要約: 探索-探索トレードオフの解消は、強化学習アルゴリズムの設計と実装における根本的な問題である。
Q-値関数の均一性の尺度として、$varepsilon$の新しいベイズ的視点を提供する。
我々は,提案アルゴリズムである$varepsilon$-ttBMCが,異なる問題に対する探索とエクスプロイトの効率よくバランスをとることを示した。
- 参考スコア(独自算出の注目度): 24.489002406693128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resolving the exploration-exploitation trade-off remains a fundamental
problem in the design and implementation of reinforcement learning (RL)
algorithms. In this paper, we focus on model-free RL using the epsilon-greedy
exploration policy, which despite its simplicity, remains one of the most
frequently used forms of exploration. However, a key limitation of this policy
is the specification of $\varepsilon$. In this paper, we provide a novel
Bayesian perspective of $\varepsilon$ as a measure of the uniformity of the
Q-value function. We introduce a closed-form Bayesian model update based on
Bayesian model combination (BMC), based on this new perspective, which allows
us to adapt $\varepsilon$ using experiences from the environment in constant
time with monotone convergence guarantees. We demonstrate that our proposed
algorithm, $\varepsilon$-\texttt{BMC}, efficiently balances exploration and
exploitation on different problems, performing comparably or outperforming the
best tuned fixed annealing schedules and an alternative data-dependent
$\varepsilon$ adaptation scheme proposed in the literature.
- Abstract(参考訳): 探索-探索トレードオフの解消は、強化学習(RL)アルゴリズムの設計と実装における根本的な問題である。
本稿では,epsilon-greedy 探索ポリシーを用いたモデルフリー RL に着目し,その単純さにもかかわらず,最も頻繁に使われている探索形式の一つである。
しかし、このポリシーの重要な制限は$\varepsilon$の仕様である。
本稿では、Q-値関数の均一性の尺度として、$\varepsilon$という新しいベイズ的視点を提供する。
新しい視点に基づいたbayesian model combination(bmc)に基づいたクローズドフォームベイズモデルのアップデートを導入することにより、モノトーン収束保証によって、環境からの体験を一定時間使用することで、$\varepsilon$を適用できる。
提案したアルゴリズムである$\varepsilon$-\texttt{BMC} は、異なる問題に対する探索と搾取の効率よくバランスし、最適な調整済みアニールスケジュールと、本論文で提案した代替データ依存の$\varepsilon$アダプティブスキームとを比較または上回る性能を示す。
関連論文リスト
- Epsilon-Greedy Thompson Sampling to Bayesian Optimization [2.94944680995069]
トンプソンサンプリング(TS)は、BOがエクスプロレーション-探索トレードオフを扱うために好まれるソリューションである。
TSは、新たな観測結果を得た後、真の目的関数に関する情報を集めることで、搾取を弱く管理する。
我々は、強化学習において確立された選択戦略である$varepsilon$-greedyポリシーを取り入れることで、TSの活用を改善する。
論文 参考訳(メタデータ) (2024-03-01T13:53:44Z) - Bayesian Exploration Networks [28.885750299203433]
本稿では,新しいベイズ的モデルフリーな定式化を導入し,モデルフリーなアプローチがベイズ最適政策をもたらすことを示す最初の分析を行った。
モデルフリーベイズ最適性に向けた第一歩として,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入し,ベルマン作用素のアレタリック不確実性(密度推定)とエピステマティック不確実性(変動推論)の両方をモデル化する。
完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。
論文 参考訳(メタデータ) (2023-08-24T19:35:58Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文 参考訳(メタデータ) (2021-10-07T07:59:50Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。