論文の概要: Epsilon-Greedy Thompson Sampling to Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2403.00540v3
- Date: Wed, 30 Oct 2024 20:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:35.212941
- Title: Epsilon-Greedy Thompson Sampling to Bayesian Optimization
- Title(参考訳): ベイズ最適化のためのEpsilon-Greedy Thompsonサンプリング
- Authors: Bach Do, Taiwo Adebiyi, Ruda Zhang,
- Abstract要約: トンプソンサンプリング(TS)は、BOがエクスプロレーション-探索トレードオフを扱うために好まれるソリューションである。
TSは、新たな観測結果を得た後、真の目的関数に関する情報を集めることで、搾取を弱く管理する。
我々は、強化学習において確立された選択戦略である$varepsilon$-greedyポリシーを取り入れることで、TSの活用を改善する。
- 参考スコア(独自算出の注目度): 2.94944680995069
- License:
- Abstract: Bayesian optimization (BO) has become a powerful tool for solving simulation-based engineering optimization problems thanks to its ability to integrate physical and mathematical understandings, consider uncertainty, and address the exploitation-exploration dilemma. Thompson sampling (TS) is a preferred solution for BO to handle the exploitation-exploration trade-off. While it prioritizes exploration by generating and minimizing random sample paths from probabilistic models -- a fundamental ingredient of BO -- TS weakly manages exploitation by gathering information about the true objective function after it obtains new observations. In this work, we improve the exploitation of TS by incorporating the $\varepsilon$-greedy policy, a well-established selection strategy in reinforcement learning. We first delineate two extremes of TS, namely the generic TS and the sample-average TS. The former promotes exploration, while the latter favors exploitation. We then adopt the $\varepsilon$-greedy policy to randomly switch between these two extremes. Small and large values of $\varepsilon$ govern exploitation and exploration, respectively. By minimizing two benchmark functions and solving an inverse problem of a steel cantilever beam, we empirically show that $\varepsilon$-greedy TS equipped with an appropriate $\varepsilon$ is more robust than its two extremes, matching or outperforming the better of the generic TS and the sample-average TS.
- Abstract(参考訳): ベイズ最適化(BO)は、物理的および数学的理解を統合し、不確実性を考慮し、搾取-探索ジレンマに対処する能力によって、シミュレーションベースのエンジニアリング最適化問題を解決する強力なツールとなっている。
トンプソンサンプリング(TS)は、BOがエクスプロレーション-探索トレードオフを扱うために好まれるソリューションである。
BOの基本的な構成要素である確率モデルからランダムなサンプルパスを生成し、最小化することで、探索を優先する一方で、TSは新しい観測結果を得た後に真の目的関数に関する情報を集めることで、エクスプロイトを弱く管理する。
本研究では、強化学習において確立された選択戦略である$\varepsilon$-greedyポリシーを取り入れることで、TSの活用を改善する。
まず、TSの2つの極性、すなわちジェネリックTSとサンプル平均TSを列挙する。
前者は探検を推進し、後者は搾取を好んでいる。
次に、この2つの極端をランダムに切り替えるために、$\varepsilon$-greedyポリシーを採用します。
$\varepsilon$の小さな値と大きな値はそれぞれ、搾取と探検を管轄する。
2つのベンチマーク関数を最小化し、鋼製カンチレバービームの逆問題を解くことにより、適切な$\varepsilon$-greedy TSと$\varepsilon$は2つのエクササイズよりも頑健であり、一般的なTSとサンプル平均TSの長所をマッチングまたは上回ることを示す。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Fast Rates for Maximum Entropy Exploration [52.946307632704645]
エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。
本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。
訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。
軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-14T16:51:14Z) - Thompson Sampling for (Combinatorial) Pure Exploration [45.602801991116245]
既存の純粋な探索の方法は、主に腕集合の上位信頼境界の和$S$を用いて、上位信頼境界の$S$を表す。
上位信頼境界の代わりに独立したランダムサンプルを用いるトンプソンサンプリング(TS)を提案する。
TS-Explore では、アームセット$S$の独立したランダムサンプルの和は、高い確率で$S$の厳密な上限を超えることはない。
論文 参考訳(メタデータ) (2022-06-18T08:45:43Z) - On Unbalanced Optimal Transport: Gradient Methods, Sparsity and
Approximation Error [18.19398247972205]
我々は、少なくとも$n$の成分を持つ、おそらく異なる質量の2つの測度の間の不均衡最適輸送(UOT)について研究する。
UOT問題に対する$varepsilon$-approximateの解を求めるために,GEM-UOT(Gradient Extrapolation Method)に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-08T03:22:39Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - {\epsilon}-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy
Exploration in Model-Free Reinforcement Learning [24.489002406693128]
探索-探索トレードオフの解消は、強化学習アルゴリズムの設計と実装における根本的な問題である。
Q-値関数の均一性の尺度として、$varepsilon$の新しいベイズ的視点を提供する。
我々は,提案アルゴリズムである$varepsilon$-ttBMCが,異なる問題に対する探索とエクスプロイトの効率よくバランスをとることを示した。
論文 参考訳(メタデータ) (2020-07-02T04:30:47Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。