論文の概要: Epsilon-Greedy Thompson Sampling to Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2403.00540v1
- Date: Fri, 1 Mar 2024 13:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:18:03.818487
- Title: Epsilon-Greedy Thompson Sampling to Bayesian Optimization
- Title(参考訳): ベイズ最適化のためのEpsilon-Greedy Thompsonサンプリング
- Authors: Bach Do and Ruda Zhang
- Abstract要約: トンプソンサンプリング(TS)はベイズ最適化(BO)における搾取探索ジレンマに対処するための解となる。
本研究では,強化学習において確立された選択戦略であるepsilon-greedy(varepsilon$-greedy)政策をTSに組み込んだ。
- 参考スコア(独自算出の注目度): 3.9160947065896803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling (TS) serves as a solution for addressing the
exploitation-exploration dilemma in Bayesian optimization (BO). While it
prioritizes exploration by randomly generating and maximizing sample paths of
Gaussian process (GP) posteriors, TS weakly manages its exploitation by
gathering information about the true objective function after each exploration
is performed. In this study, we incorporate the epsilon-greedy
($\varepsilon$-greedy) policy, a well-established selection strategy in
reinforcement learning, into TS to improve its exploitation. We first delineate
two extremes of TS applied for BO, namely the generic TS and a sample-average
TS. The former and latter promote exploration and exploitation, respectively.
We then use $\varepsilon$-greedy policy to randomly switch between the two
extremes. A small value of $\varepsilon \in (0,1)$ prioritizes exploitation,
and vice versa. We empirically show that $\varepsilon$-greedy TS with an
appropriate $\varepsilon$ is better than one of its two extremes and competes
with the other.
- Abstract(参考訳): トンプソンサンプリング (TS) はベイズ最適化 (BO) における搾取探索ジレンマに対処するための解である。
ガウス過程(GP)の後部のサンプルパスをランダムに生成し、最大化することで探索を優先するが、TSは各探索の後に真の目的関数に関する情報を収集することでその利用を弱く管理する。
本研究では,強化学習における確立された選択戦略であるepsilon-greedy(\varepsilon$-greedy)ポリシーをtsに組み込んで,その活用方法を改善する。
まず,BOに適用された2つの極端なTS,すなわちジェネリックTSとサンプル平均TSについて述べる。
前者および後者は、それぞれ探検と搾取を促進する。
次に$\varepsilon$-greedyポリシーを使用して、2つの極端をランダムに切り替えます。
$\varepsilon \in (0,1)$の小さな値は、搾取を優先する。
我々は、$\varepsilon$-greedy TSが適切な$\varepsilon$の2つのエクササイズのうちの1つよりも優れていることを実証的に示す。
関連論文リスト
- Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Fast Rates for Maximum Entropy Exploration [52.946307632704645]
エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。
本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。
訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。
軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-14T16:51:14Z) - Thompson Sampling for (Combinatorial) Pure Exploration [45.602801991116245]
既存の純粋な探索の方法は、主に腕集合の上位信頼境界の和$S$を用いて、上位信頼境界の$S$を表す。
上位信頼境界の代わりに独立したランダムサンプルを用いるトンプソンサンプリング(TS)を提案する。
TS-Explore では、アームセット$S$の独立したランダムサンプルの和は、高い確率で$S$の厳密な上限を超えることはない。
論文 参考訳(メタデータ) (2022-06-18T08:45:43Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - On Unbalanced Optimal Transport: Gradient Methods, Sparsity and
Approximation Error [18.19398247972205]
我々は、少なくとも$n$の成分を持つ、おそらく異なる質量の2つの測度の間の不均衡最適輸送(UOT)について研究する。
UOT問題に対する$varepsilon$-approximateの解を求めるために,GEM-UOT(Gradient Extrapolation Method)に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-08T03:22:39Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - {\epsilon}-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy
Exploration in Model-Free Reinforcement Learning [24.489002406693128]
探索-探索トレードオフの解消は、強化学習アルゴリズムの設計と実装における根本的な問題である。
Q-値関数の均一性の尺度として、$varepsilon$の新しいベイズ的視点を提供する。
我々は,提案アルゴリズムである$varepsilon$-ttBMCが,異なる問題に対する探索とエクスプロイトの効率よくバランスをとることを示した。
論文 参考訳(メタデータ) (2020-07-02T04:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。