Fugu-MT 論文翻訳(概要): Epsilon-Greedy Thompson Sampling to Bayesian Optimization

論文の概要: Epsilon-Greedy Thompson Sampling to Bayesian Optimization

arxiv url: http://arxiv.org/abs/2403.00540v1
Date: Fri, 1 Mar 2024 13:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 17:18:03.818487
Title: Epsilon-Greedy Thompson Sampling to Bayesian Optimization
Title（参考訳）: ベイズ最適化のためのEpsilon-Greedy Thompsonサンプリング
Authors: Bach Do and Ruda Zhang
Abstract要約: トンプソンサンプリング(TS)はベイズ最適化(BO)における搾取探索ジレンマに対処するための解となる。本研究では,強化学習において確立された選択戦略であるepsilon-greedy(varepsilon$-greedy)政策をTSに組み込んだ。
参考スコア（独自算出の注目度）: 3.9160947065896803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Thompson sampling (TS) serves as a solution for addressing the exploitation-exploration dilemma in Bayesian optimization (BO). While it prioritizes exploration by randomly generating and maximizing sample paths of Gaussian process (GP) posteriors, TS weakly manages its exploitation by gathering information about the true objective function after each exploration is performed. In this study, we incorporate the epsilon-greedy ($\varepsilon$-greedy) policy, a well-established selection strategy in reinforcement learning, into TS to improve its exploitation. We first delineate two extremes of TS applied for BO, namely the generic TS and a sample-average TS. The former and latter promote exploration and exploitation, respectively. We then use $\varepsilon$-greedy policy to randomly switch between the two extremes. A small value of $\varepsilon \in (0,1)$ prioritizes exploitation, and vice versa. We empirically show that $\varepsilon$-greedy TS with an appropriate $\varepsilon$ is better than one of its two extremes and competes with the other.
Abstract（参考訳）: トンプソンサンプリング (TS) はベイズ最適化 (BO) における搾取探索ジレンマに対処するための解である。ガウス過程(GP)の後部のサンプルパスをランダムに生成し、最大化することで探索を優先するが、TSは各探索の後に真の目的関数に関する情報を収集することでその利用を弱く管理する。本研究では,強化学習における確立された選択戦略であるepsilon-greedy(\varepsilon$-greedy)ポリシーをtsに組み込んで,その活用方法を改善する。まず,BOに適用された2つの極端なTS,すなわちジェネリックTSとサンプル平均TSについて述べる。前者および後者は、それぞれ探検と搾取を促進する。次に$\varepsilon$-greedyポリシーを使用して、2つの極端をランダムに切り替えます。 $\varepsilon \in (0,1)$の小さな値は、搾取を優先する。我々は、$\varepsilon$-greedy TSが適切な$\varepsilon$の2つのエクササイズのうちの1つよりも優れていることを実証的に示す。

関連論文リスト

Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration [6.287267171078442]
ニューラルネットワークを利用して非線形ユーティリティ関数を近似する分散認識アルゴリズムを提案する。十分広いニューラルネットワークに対して,我々のアルゴリズムが次数$bigollt(d sqrtsum_t=1T sigma_t2 + sqrtdTrt)のサブ線形累積平均後悔を達成できることを示す理論的保証を確立する。
論文参考訳（メタデータ） (2025-06-02T01:58:48Z)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文参考訳（メタデータ） (2024-05-10T09:58:47Z)
Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文参考訳（メタデータ） (2023-05-27T20:08:35Z)
Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文参考訳（メタデータ） (2023-03-30T02:51:00Z)
Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文参考訳（メタデータ） (2023-03-17T17:53:28Z)
Fast Rates for Maximum Entropy Exploration [52.946307632704645]
エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-14T16:51:14Z)
Thompson Sampling for (Combinatorial) Pure Exploration [45.602801991116245]
既存の純粋な探索の方法は、主に腕集合の上位信頼境界の和$S$を用いて、上位信頼境界の$S$を表す。上位信頼境界の代わりに独立したランダムサンプルを用いるトンプソンサンプリング(TS)を提案する。 TS-Explore では、アームセット$S$の独立したランダムサンプルの和は、高い確率で$S$の厳密な上限を超えることはない。
論文参考訳（メタデータ） (2022-06-18T08:45:43Z)
On Unbalanced Optimal Transport: Gradient Methods, Sparsity and Approximation Error [18.19398247972205]
我々は、少なくとも$n$の成分を持つ、おそらく異なる質量の2つの測度の間の不均衡最適輸送(UOT)について研究する。 UOT問題に対する$varepsilon$-approximateの解を求めるために,GEM-UOT(Gradient Extrapolation Method)に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-08T03:22:39Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Reward-Free Model-Based Reinforcement Learning with Linear Function Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文参考訳（メタデータ） (2021-10-12T23:03:58Z)
A Provably Efficient Sample Collection Strategy for Reinforcement Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。 1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文参考訳（メタデータ） (2020-07-13T15:17:35Z)
{\epsilon}-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy Exploration in Model-Free Reinforcement Learning [24.489002406693128]
探索-探索トレードオフの解消は、強化学習アルゴリズムの設計と実装における根本的な問題である。 Q-値関数の均一性の尺度として、$varepsilon$の新しいベイズ的視点を提供する。我々は,提案アルゴリズムである$varepsilon$-ttBMCが,異なる問題に対する探索とエクスプロイトの効率よくバランスをとることを示した。
論文参考訳（メタデータ） (2020-07-02T04:30:47Z)
A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。 SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文参考訳（メタデータ） (2020-02-12T18:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。